《上海人工智能实验室&安远AI:2025前沿人工智能风险管理框架报告(52页).pdf》由会员分享,可在线阅读,更多相关《上海人工智能实验室&安远AI:2025前沿人工智能风险管理框架报告(52页).pdf(52页珍藏版)》请在三个皮匠报告上搜索。
1、前沿智能险管理框架(1.0版)执摘要 我们对可信AGI的发展愿景 当前智能(AI)技术正以前所未有的速度取得突破性进展,各类系统在众多领域已达到或超越类平。这些突破性进展为我们解决类临的重挑战提供了历史机遇从推动科学发现、提升医疗质量和的健康福祉,到促进经济产的提升。但与此同时,快速发展的技术也带来了前所未有的险。随着先进智能的研发与部署速度超越了关键安全措施的发展速度,建完善的险管理机制已成为全球科技发展的当务之急。作为我国智能领域的新型科研机构,上海智能实验室致于打造“突破型、引领型、平台型”体化的型综合性研究基地,推动智能技术的安全有益发展。为积极应对技术发展带来的挑战,推动全球在智能安
2、全领域的良性竞争,实验室提出了AI-45平衡律1,作为实现可信AGI的发展路线图。前沿智能险管理框架 上海智能实验室联合安远AI2,正式发布智能前沿险管理框架(1.0版)(以下简称“框架”),旨在为通型智能(General-Purpose AI)模型研发者提供全的险管理指导针,主动识别、评估、缓解和治理系列对公共安全和国家安全构成威胁的严重智能险,保障个体与社会的安全。本框架旨在为通型智能模型研发者管理其通型智能模型可能带来的严重险提供指导。框架充分借鉴了安全攸关型业的险管理标准与最佳实践,涵盖险管理的六核流程:险识别、险阈值、险分析、险评价、险缓解及险治理。1.险识别:本章节聚焦通型智能模型
3、可能引发的严重险,明确四核险类型:滥险、失控险、意外险及系统性险。我们计划通过持续更新险分类体系,动态应对未知与新兴险。2.险阈值:本章节明确了系列不可接受的险结果(红线)以及触发更级别安全保障措施的早期预警指标(线)。我们针对可能威胁公共安全和国家安全的个关键领域设定阈值,其中包括:络攻击、物威胁、规模说服和有害操控,以及失控险。2 安远AI(Concordia AI)是家AI安全与治理领域第三研究和咨询机构,同时是前该领域中国唯的社会企业。1 Yang,C.et al.,Towards AI-45 Law:A Roadmap to Trustworthy AGI,arXiv preprin
4、t,2024,https:/arxiv.org/abs/?4?.?4?86 前沿智能险管理框架(1.0版)3.险分析:本章节建议在智能全命周期中贯穿实施动态险分析,以判断模型是否越过线即达到触发更级别安全措施的早期预警指标。我们建议AI研发者在研发前和部署前进系统性评估,以便为关键的部署决策提供参考。同步应建部署后持续监测机制,为新代系统研发提供安全指引。与本框架同时发布的还有份针对系列通型智能模型的险评测技术报告。4.险评价:建三级险分级体系:绿区域(基于常规措施可安全部署)、区域(需强化安全防护与授权)、红区域(需特殊措施,如限制部署或限制研发)。我们建议对缓解措施实施后的剩余险进迭代评估
5、,进步采取降低险的措施直险达到可接受平。5.险缓解:构建全命周期纵深防御险缓解策略,包含三种险缓解措施:安全训练措施、部署缓解措施及模型安保措施,并根据模型处于绿区域、区域或红区域设定不同的保障级别。我们呼吁全球持续加AI安全基础研究投,当前技术段尚难以充分保障先进AI系统的安全性。6.险治理:提出监督和调整整个险管理流程的治理路径。建四维治理体系:内部治理机制、透明度与社会监督、应急管控机制、政策定期更新和反馈机制,并根据模型处于绿区域、区域或红区域设定不同的保障级别。AI安全作为全球公共产品 上海智能实验室坚信AI安全是项全球公共产品3。我们率先提出这份前沿AI险管理框架,汇集了现阶段对重
6、AI险的认知与应对思路。我们倡导前沿AI研发机构、政策制定者及相关采兼容的险管理框架。AI技术的跃迁新异,唯有尽快在当下采取集体动,才能让变性AI真正造福类,并避免灾难性后果。我们诚邀各就框架落地开展合作,并承诺以公开透明的式分享实践成果。只有当关键组织同步落实同等强度的防护措施,社会层的险管控才能效。对险与机遇并存的全新局,唯有以协同共治、系统施策的思维,能凝聚合、破局前。3 上海智能实验室治理研究中、清华学产业发展与环境治理研究中、上海交通学国际与公共事务学院等,智能安全作为全球公共产品研究报告,2024,https:/ AI Safety as a Global Public Good: