《安远AI:2023前沿大模型的风险、安全与治理报告(60页).pdf》由会员分享,可在线阅读,更多相关《安远AI:2023前沿大模型的风险、安全与治理报告(60页).pdf(60页珍藏版)》请在三个皮匠报告上搜索。
1、2本报告的讨论范围具有危险能的专AI(例如于络攻击、物程的AI模型)前沿AI(Frontier AI)(例如前沿模型,以及未来可能的AGI)低险的专系统(例如AlphaGo、AlphaFold)次前沿的基础模型(例如GPT-3)专AI(Narrow AI)通AI(General AI)通性潜在伤害讨论范围注:1)本报告的讨论范围参考了全球AI安全峰会的讨论范围设定,书得到图灵奖得主Yoshua Bengio等学者专家的建议。2)在不同章节,根据参考资料或讨论语境,前沿模型、前沿AI、AGI等概念可能存在混的情况。3本报告聚焦前沿模型:前沿模型(Frontier Large Model):能执泛
2、的任务,并达到或超过当前最先进现有模型能的规模机器学习模型,是前最常的前沿AI,提供了最多的机遇但也带来了新的险。模型能相关术语,主要参考全球AI安全峰会、前沿模型论坛、AI全景报告:前沿AI(Frontier AI):能的通AI模型,能执泛的任务,并达到或超过当今最先进模型的能,最常的是基础模型。通AI(General AI)/专AI(Narrow AI):种设计来执任何/特定认知任务的智能,其学习算法被设计为可以执各种各样的任务/少数特定任务,并且从执任务中获得的知识可以/不可以动适或迁移到其他任务。通智能(Artificial General Intelligence,AGI):可在所有
3、或部分有经济价值的任务中达到或超过类全部认知能的机器智能。(与通AI的区别在于能级别;关于AGI的定义存在很多分歧,本报告中不同专家或调研的定义可能不同)规模机器学习模型相关术语,主要参考斯坦福学、智源研究院:基础模型(Foundation Model):在规模泛数据上训练的模型,使其可以适应泛的下游任务;国内学界外通常简称为“模型”。智能险相关术语,主要参考津学研究机构:存险(Existential Risk):威胁起源于地球的智能命过早灭绝或对其未来发展潜的永久和剧烈破坏的险。灾难性险(Catastrophic Risk):种可能发的事件或过程,若发将导致全球约10%或更多丧,或造成类似损
4、害。术语定义4报告录 前沿模型的趋势预测:技术解读扩展预测 前沿模型的险分析:险态度险解读三 前沿模型的安全技术:对监测鲁棒性系统性安全四 前沿模型的治理案:技术治理政府监管国际治理五 总结和展望 前沿模型的趋势预测56涌现能 Emergent abilities of large language models(Wei,2022)专业和学术基准GPT-4 System Card(OpenAI,2023)GPT-4等前沿模型展现出强的涌现能,多领域逼近类平涌现能是指这些能并没有被开发者显式地设计,是由于其规模庞,在训练过程中会然然地获得的;并且,这些前沿模型已在系列的专业和学术基准逼近类平。微
5、软研究院的定性研究认为GPT-4显出AGI的花:“GPT-4的能,我们认为它可以被合理地视为早期(但仍不完善)版本的AGI。”“新能的影响可能导致就业岗位的更迭和更泛的经济影响,以及使恶意为者拥有新的误导和操纵具;局限性,系统可靠性的缺陷及其学习的偏可能会导致过度依赖或放现有的社会问题。”图灵奖得主Yoshua Bengio认为GPT-4已经通过图灵测试:“我最近签署了封公开信,要求放慢 GPT-4 更强的巨型智能系统的开发速度,这些系统前通过了图灵测试,因此可以欺骗类相信它正在与同伴不是机器进对话。”“正是因为出现了意想不到的加速年前我可能不会签署这样的封信所以我们需要后退步,我对这些话题的
6、看法也发了变化。”前沿模型的趋势预测:技术解读扩展预测7LLM Powered Autonomous Agents(Weng,2023)模型为多个技术向带来新的发展空间,也引发新的挑战语模型(LLM)的理解和推理等能推动了众多技术向,例如多模态模型和主智能体:多模态模型(Multimodal large models)2023年9,在ChatGPT更新上线能看、能听、能说的多模态版本的同时,OpenAI也发布了GPT-4V(ision)System Card档解读其能、局限、险以及缓解措施。微软的多模态模型综述(2023)从前已经完善的和还处于最前沿的两类多模态模型研究向出发,总结了五个具体研