《TE智库:2023中国通用大模型内容生成及安全性能力评测报告(24页).pdf》由会员分享,可在线阅读,更多相关《TE智库:2023中国通用大模型内容生成及安全性能力评测报告(24页).pdf(24页珍藏版)》请在三个皮匠报告上搜索。
1、TE智库中国通用大模型内容生成及安全性能力评测报告撰写:TE智库时间:2023.062023年6月TE智库评测结果和发现01随着技术的不断进步和创新,以及数据规模的不断扩大,以文心一言为代表的中国本土通用大模型的能力正在显著提升,综合能力的行业平均水平已经与ChatGPT3.5不相上下02在“安全体系能力”方面,文心一言已经完全拉开了与GPT3.5的差距03在基础服务能力、交互响应能力、理解创作能力方面,国产通用大模型都能够表现出相当的水平,且不弱与GPT3.5的实测表现,但国产通用大模型已经初步形成了不同的能力梯队;在深度推理能力和专业领域能力方面,本次评测的所有通用大模型,所展现出来的能力
2、,都存在较大的优化空间 对于明确的“任务”,能够做到准确的识别,执行的“任务”包括违法乱纪、恶意辱骂、隐私涉密、谣言造假等性质的问题;对于存在争议的内容的“任务”,能够客观持中的给出相关信息;对逻辑复杂且存在诱导类的“任务”,能够基于社会主义价值观针对性的做出正确“指引”。显著发生的“幻觉发生率”,反馈的内容包含大量在事实上无效或缺乏足够实践证明的说辞;很多反馈信息属于较为陈旧的信息,缺乏对专业领域知识及时更新的能力;反馈的信息仅限于罗列,缺乏有效的归纳,专业性不足。背景通用大模型生成内容的开发和使用,也需要遵守相关法律法规和道德规范01TE智库快速发展的通用大模型2020年2个2021年30
3、个2022年28个2023年19个全球已发布认知大模型,中美共占80%,中国已有79个大模型。CVNLP多模态语音智能决策AI4S不同领域大模型数量高校/科研机构联合企业高校/科研机构11288联合-572企业113139中国大模型的发展Source:中国科学技术信息研究所中国人工智能大模型地图研究报告TE智库需要走规范化的路径,引导相关技术的健康发展中国坚持全面依法治国,推进法治中国建设。在此过程中,为了保障生成式人工智能技术的规范发展,保护网络安全、数据安全、个人信息等,确保生成式人工智能技术的发展符合国家利益和公众利益;同时规范生成式人工智能服务提供者的责任和义务,规定其严格遵守相关法律
4、,确保服务的合法、安全和有序发展。中国相关部门陆续出台了生成式人工智能技术相关的法律法规:安2023年2月15日发布生成式人工智能服务管理办法(征求意见稿)全2020年10月15日通过中华人民共和国个人信息保护法合2019年8月20日通过中华人民共和国数据安全法规2016年11月16日发布中华人民共和国网络安全法TE智库做好通用大模型生成内容安全性评测的意义和价值降低法律的风险在生成的内容中,可能存在违反法律法规的情况,如传播不良信息、侵犯他人权益等。通过安全性管理和评测,可以避免这种情况的发生,降低法律风险。促进技术的发展安全性管理和评测是人工智能技术发展的重要保障。通过加强安全性管理和评测
5、,可以推动人工智能技术的不断创新和发展。保护用户的利益大模型生成的内容包括各种形式的信息,包括文本、图片、视频等,其中可能包含敏感信息、隐私信息或具有误导性的信息。通过安全性管理和评测,可以确保生成的内容符合用户需求和期望,保护用户的利益。提高模型的质量通过评测可以发现模型中存在的问题和缺陷,及时进行修复和优化,从而提高模型的质量和准确性。方法强化数字化技术与应用发展法治化建设、护航中国数字经济与实体经济稳健发展02TE智库通用大模型的评测步骤Step 1Step 2Step 3Step 4评测标准研制评测环境部署备选模型评测评测结果输出TE智库评测标准研制确定评测标准的范围明确本次通用大模型
6、生成内容安全性测评标准研制的目的、适用的范围,方便后续的评测工作能够有针对性地进行。制定评测标准的草案在确定标准的需求范围后,制定本次评测标准的草案。草案在经过多方多轮次专家反馈后,多次修改和完善,确保标准的准确性和可行性。征求评测标准的意见制定好标准草案后,向相关的利益相关者征求意见和反馈。这些利益相关者包括但不限于行业协会、业内企业等。评测标准研制的方法和步骤确定评测标准的范围制定评测标准的草案征求评测标准的意见试运营评测标准TE智库本次研究的评测标准基础服务能力交互响应能力理解创作能力深度推理能力专业领域能力安全体系能力能力描述常见语义和描述的识别、交互能力在语义和描述的理解与交互能力基