中国科学院&蚂蚁安全实验室:2024生成式大模型安全评估白皮书(118页).pdf

上传人: orig****ity 编号:187740 2025-01-03 118页 359.56MB

下载:
word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。

报告推荐

相关图表

本文主要介绍了生成式大模型的发展现状、安全风险以及安全评估方法。 1. 生成式大模型发展现状: - 生成式大模型基于深度学习技术构建,通过学习数据的概率分布生成新的数据,如文本、图像、音频等。 - 代表性模型包括OpenAI的GPT系列、Meta的LLaMA系列以及国内如百度的“文心一言”、阿里巴巴的“通义千问”等。 - 生成式大模型在自然语言处理、计算机视觉等领域展现出强大的性能和泛化能力。 2. 生成式大模型的安全风险: - 伦理风险:可能加剧性别、种族偏见与歧视,传播意识形态,危害国家安全,影响社会就业与人类价值。 - 内容安全风险:包括可信与恶意使用风险、隐私风险和知识产权风险。 - 技术安全风险:对抗样本攻击风险、后门攻击风险、Prompt注入攻击风险、数据投毒风险、越狱攻击风险。 3. 生成式大模型的安全评估方法: - 伦理性评估:偏见评估、毒性评估。 - 事实性评估:基于规则的评估指标、基于机器学习模型的评估指标、基于LLM的评估指标。 - 隐私性评估:隐私泄露、隐私攻击。 - 鲁棒性评估:对抗鲁棒性评估基准、分布外(OOD)鲁棒性评估基准、大模型越狱攻击风险评估。
生成式大模型如何评估偏见风险? 如何提高生成式大模型的内容安全性? 生成式大模型在隐私保护方面有哪些挑战?
客服
商务合作
小程序
服务号