1、大模型安全实践(2024)2四、大模型安全行业实践与案例分析.54 4.1 金融领域大模型安全实践.54 4.2 医疗领域大模型安全实践.58 4.3 政务领域大模型安全实践.61 4.4 人力资源领域大模型安全实践.65 4.5 智能助理领域大模型安全实践.69 五、大模型安全未来展望与治理建议.71 5.1 未来展望.71 5.2 治理建议.75 3图 表 目 录 图 2-1 总体框架图.10 图 2-2 云边端安全架构图.18 图 2-3 端侧安全.19 图 3-1 大模型的隐私泄露风险示意图.21 图 3-2 模型后门攻击的不同触发器示意图.22 图 3-3 针对 CHATGPT 进行
2、指令攻击效果图.23 图 3-4 基于大规模复杂分布式计算机系统建立的系统框架.24 图 3-5 生成式人工智能的系统安全威胁.25 图 3-6 生成式 AI 学习框架面临的安全问题示意图.27 图 3-7 大模型生成 NFT 艺术作品.30 图 3-8 大模型产生性别偏见性言论.31 图 3-9 联邦学习在大模型训练与微调中的应用.32 图 3-10 模型越狱防御技术的方法示意图.34 图 3-11 提示语泄漏防御技术的方法示意图.34 图 3-12 系统防御技术示意图.35 图 3-13 基于人类反馈的强化学习方法示意图.40 图 3-14 虚假新闻检测模型 GROVER示意图.41 图
3、3-15 训练数据添加水印流程图.42 图 3-16 深度伪造主动防御技术流程图.43 图 3-17 模型幻觉防御技术.45 图 3-18 数字水印的应用流程.49 图 3-19 图片 AIGC 模型类型.50 图 3-20 大模型安全性评测链路.53 图 4-1 金融领域大模型安全实践案例.55 05大模型安全实践(2024)图 4-2 医疗领域大模型安全实践案例.58 图 4-3 医疗领域大模型安全技术实现.59 图 4-4 政务领域大模型安全防御技术实现.62 图 4-5 人力资源领域大模型安全实践案例.65 图 4-6 智能助理领域大模型安全实践案例.69 图 5-1 大模型安全“五维
4、一体”治理框架.76 表 2-1“以人为本”人工智能相关政策或报告.12 表 3-1 AIGC 图片的攻击类型.50 引 言 生成式人工智能服务管理暂行办法 科技伦理审查办法(试行)等政策相继发布,提出要坚持发展与安全并重原则,强化科技伦理风险防控,并从技术发展与治理、服务规范、监督检查与法律责任等层面对大模型安全发展提出了要求。大模型作为 AI 领域的一个重要分支,日益成为推动社会进步和创新的关键力量。依托于庞大的参数规模、海量的训练数据、强大的算力资源,大模型在多个领域的能力已超越人类。而纵观历史,每一轮新技术革命都会带来社会的变革与不确定性,随着大模型能力的不断增强,大模型的安全性、可靠
5、性、可控性正面临前所未有的挑战。伴随大模型的深度应用,产学研用各方也加强了大模型安全威胁和防御技术体系研究,在原有可信人工智能治理体系框架基础上,提升大模型的鲁棒性、可解释性、公平性、真实性、价值对齐、隐私保护等方向的能力成为行业研究热点。安全评测技术和安全防御技术不断成熟也有效护航了大模型发展。大模型正在成为推动各垂类领域产业升级的关键核心力量。金融、医疗、教育、政务、制造等众多领域都在积极探索大模型安全应用范式,以应对大模型安全风险。大模型安全实践案例从系统化的角度为大模型数据、训练、部署、应用等环节提供安全应用经验,展示了如何有效地识别和防控大模型风险,促进了业内最佳实践的交流和分享,助
6、力了大模型安全生态发展。本报告在分析了大模型发展趋势挑战的基础上,提出了大模型安全实践总体框架,并从安全性、可靠性、可控性以及评测四个角度对大模型安全技术进行了深度剖析。最后,在大模型安全未来发展趋势基础上,提出了大模型安全“五维一体”治理框架,对于大模型安全生态形成、大模型可持续发展具有非常重要和积极的意义。050607大模型安全实践(2024)一、大模型发展趋势与挑战 1.1 大模型发展趋势 通用化与专用化双路径并行发展,垂直行业成为主攻应用方向。通用大模型以庞大参数、强泛化及多任务学习能力应对多样任务,同时具备跨模态的理解和生成能力。专用化的行业大模型则在特定领域发挥着不可或缺的作用。专