《OpenAI:大模型风险防范框架(2023) 【中文翻译版】(15页).pdf》由会员分享,可在线阅读,更多相关《OpenAI:大模型风险防范框架(2023) 【中文翻译版】(15页).pdf(15页珍藏版)》请在三个皮匠报告上搜索。
1、OpenAI 大模型风险防范框架【中文版】前言:OpenAI刚发表的这个风险防范文档基本是描述了内部如何以一个独立团队在公司治理框架下进行大模型的风险防范,有很强的实操参考价值。目前还没看到中文版,特此整理制作全中文版本分享我们认为,对人工智能带来的灾难性风险的科学研究远远落后于我们的需求。为了帮助解决这一差距,我们正在推出我们的“准备框架”,这是一份描述OpenAI追踪、评估、预测和防护日益强大的模型所带来的灾难性风险的流程的活文档。2023年12月18日引言我们迭代部署的实践经验使我们能够主动改进我们的技术和程序安全基础设施。随着我们的系统越来越接近通用人工智能(AGI),我们在模型的开发
2、上变得更加谨慎,特别是在灾难性风险的背景下。这份准备框架是一份活文档,它总结了我们关于如何在实践中最好地实现安全开发和部署的最新学习成果。准备框架中的流程将帮助我们迅速提高对灾难性风险的科学和经验质地的理解,并建立防止不安全开发所需的流程。我们准备框架背后的核心论点是,对AI灾难性风险安全的强有力方法需要主动、基于科学的决定何时以及如何安全地进行开发和部署。我们的准备框架包含五个关键要素:译:Web3天空之城 1 通过评估追踪灾难性风险水平。我们将构建并不断改进一系列评估和其他监控解决方案,涵盖多个追踪风险类别,并在评分卡中指出我们当前的预防和缓解风险的水平。重要的是,我们还将预测风险的未来发
3、展,以便我们可以在安全和安保措施上提前行动。2 寻找未知的未知。我们将持续运行一个过程,用于识别和分析(以及追踪)当前未知的灾难性风险类别,随着它们的出现。3 建立安全基线。只有那些缓解后评分为“中等”或以下的模型才能被部署,只有那些缓解后评分为“高”或以下的模型才能进一步开发(如下面的追踪风险类别所定义)。此外,我们将确保安全措施适当地针对任何具有“高”或“关键”预防风险水平的模型(如下面的评分卡所定义),以防止模型泄露。我们还建立了程序承诺(如下面的治理所定义),进一步指定我们如何操作化准备框架概述的所有活动。迭代部署主动改进我们的技术和程序安全基础设施。4 指派准备团队进行实地工作。Pr
4、eparedness团队将推动准备框架的技术工作和维护。这包括进行风险研究、评估、监控和预测,并通过定期向安全咨询小组报告来综合这些工作。这些报告将包括最新证据的摘要,并就需要进行的变更提出建议,以使OpenAI能够提前规划。准备团队还将呼吁并协调相关团队(例如,安全系统、安全、超级对齐、政策研究)来汇总这些报告中推荐的缓解措施。此外,准备工作还将管理安全演习,并与值得信赖的AI团队协调进行第三方审计。5 创建一个跨职能咨询机构。我们正在创建一个安全咨询小组(SAG),它将公司内的专业知识汇集在一起,以帮助OpenAI的领导层和董事会为他们需要做出的安全决策做好最充分的准备。因此,SAG的职责
5、将包括监督风险景观的评估,并维护一个快速处理紧急情况的流程。最后,OpenAI的首要受托责任是对人类负责,我们致力于进行必要的研究以确保AGI的安全。因此,准备框架旨在成为我们整体安全和对齐方法的一部分,这还包括投资于减轻偏见、幻觉和滥用、促进民主对AI的输入、对齐和安全研究的投资。这也是我们在2023年7月做出的关于安全、安全和AI信任的自愿承诺的又一种方式。我们也认识到其他组织在这一领域的贡献,例如通过发布负责任的扩展政策,并鼓励业内其他人采取类似的方法。注1 我们在这份文件中关注的是灾难性风险。灾难性风险,我们指的是任何可能导致数千亿美元的经济损失或导致许多个人遭受严重伤害或死亡的风险这
6、包括但不限于存在风险。注2 主动在这种情况下指的是在第一次变得必要之前发展这门科学的目标。部署在这种情况下指的是发布技术以产生外部影响的各种方式。开发在这种情况下指的是增强技术的一系列活动。如何阅读本文档本living文档包含三个部分:1 追踪风险类别,我们将详细介绍我们将追踪的关键风险领域以及不同风险级别的划分2 评分卡,我们将在其中指出我们当前对每个追踪风险类别的风险水平评估3 治理,我们将在其中阐述我们的安全基线以及程序承诺,包括成立一个安全咨询小组。追踪风险类别在本节中,我们确定我们将追踪的风险类别,并设立专门的工作流程,用于识别和添加新的或初现的风险类别,即“未知的未知”。我们的意图