1、FOUNDATION MODEL SAFETY RESEARCH REPORT32大模型安全研究报告阿里云计算有限公司与中国信息通信研究院共同拥有本报告的版权,并依法享有版权保护。任何个人或机构在转载、摘录或以其他形式使用本报告的文字内容及观点时,必须明确标注“资料来源:阿里云计算有限公司与中国信息通信研究院”。对于任何未经授权的转载或使用行为,我们将依法追究其法律责任。版权声明LEGAL NOTICEFOUNDATION MODEL SAFETY RESEARCH REPORT54大模型安全研究报告当前,由 ChatGPT 引发的全球大模型技术竞赛正推动人工智能由专用弱智能向通用强智能迈进,
2、这不仅标志着智能水平的显著提升,也预示着人机交互方式和应用研发模式的重大变革。大模型在各行各业的广泛应用,为第四次工业革命的爆发提供了蓬勃动力和创新潜力。然而,随着大模型商业化应用和产业化落地加速,大模型技术局限和恶意使用不仅加剧了原有人工智能安全风险,也引入了模型“幻觉”、指令注入攻击、网络攻击平民化等新型风险。面对这些挑战,国际组织和世界主要国家正通过制定治理原则、完善法律法规、研制技术标准等方式,积极开展大模型安全治理。同时,大模型在逻辑推理、任务编排等方面的卓越能力,为解决网络空间安全瓶颈问题带来了新的机遇。为有效防范和消减大模型的安全风险,并促进其在安全领域的应用,阿里云计算有限公司
3、联合中国信息通信研究院等三十余家行业单位共同编制大模型安全研究报告(2024 年)。本报告凝聚业界专家共识,聚焦当前大模型突出安全风险和网络空间安全瓶颈问题,从大模型自身安全和大模型赋能安全两个维度,提出涵盖安全目标、安全属性、保护对象、安全措施四个方面的大模型自身安全框架,以及大模型赋能安全框架。期待这些框架能为社会各方提供有益参考,共同推动大模型技术产业的健康发展。前 言FORWORDFOUNDATION MODEL SAFETY RESEARCH REPORT76大模型安全研究报告目录一大模型安全概述1.大模型技术演进121.1 探索期:预训练语言模型(2017 年-2021 年)121
4、.2 爆发期:语言大模型(2022 年-2023 年)121.3 提升期:多模态大模型(2024-至今)122.大模型面临严峻安全挑战132.1 训练数据安全风险132.2 算法模型安全风险142.3 系统平台安全风险152.4 业务应用安全风险153.大模型带来新安全机遇164.大模型安全研究范围174.1 大模型自身安全174.2 大模型赋能安全17目录二大模型自身安全1.大模型自身安全框架201.1 安全目标221.2 安全属性221.3 保护对象231.4 安全措施242.训练数据安全保护措施252.1 数据合规获取252.2 数据标注安全252.3 数据集安全检测262.4数据增广与
5、数据合成272.5 安全对齐数据集构建273.算法模型安全保护措施283.1 模型内生安全评测283.2 模型鲁棒性增强293.3 模型“幻觉”缓解293.4 模型偏见缓解313.5 模型可解释性提升314.系统平台安全措施324.1 系统安全加固保护324.2 大模型插件安全保护335.业务应用安全措施345.1 输入输出安全保护345.2 生成信息标识355.3 账号恶意行为风控365.4 用户协议和隐私政策37FOUNDATION MODEL SAFETY RESEARCH REPORT98大模型安全研究报告三大模型赋能安全1.大模型赋能安全框架402.大模型赋能网络安全422.1 风险
6、识别(Identify)422.2 安全防御(Protect)442.3 安全检测(Detect)452.4 安全响应(Response)472.5 安全恢复(Recovery)482.6 其他493.大模型赋能数据安全503.1 自动化数据分类分级503.2 自动化 APP(SDK)违规处理个人信息检测514.大模型赋能内容安全524.1 智能文本内容安全检测52四大模型安全展望1.大模型技术产业展望562.大模型自身安全展望563.大模型赋能安全展望57编制说明4.2 能图像视频内容安全检测524.3 智能音频内容安全检测53FOUNDATION MODEL SAFETY RESEARCH