1、1人工通用智能的火花:人工通用智能的火花:GPT-4的早期实验的早期实验SebastienBubeckVarun ChandrasekaranRonen EldanJohannes Gehrke Eric HorvitzKamarPeter LeeYin Tat LeeYuanzhi LiScott LundbergHarsha NoriHamid PalangiMarco Tulio RibeiroYi Zhang微软研究院摘要人工智能(AI)研究人员一直在开发和完善大型语言模型(LLMs),这些模型在各种领域和任务中表现出非凡的能力,挑战我们对学习和认知的理解。由OpenAI开发的最新模型
2、GPT-4Ope23,是使用前所未有的计算和数据规模训练出来的。在本文中,我们报告了我们对GPT-4早期版本的调查,当时它还在OpenAI的积极开发中。我们认为,(这个早期版本的)GPT-4是新一批LLM的一部分(例如,与ChatGPT和谷歌的PaLM一起),它比以前的AI模型表现出更多的通用智能。我们讨论了这些模型的上升能力和影响。我们证明,除了对语言的掌握,GPT-4还能解决跨越数学、编码、视觉、医学、法律、心理学等领域的新颖而困难的任务,而不需要任何特殊的提示。此外,在所有这些任务中,GPT-4的表现都惊人地接近人类水平,而且往往大大超过了ChatGPT等现有模型。鉴于GPT-4能力的广
3、度和深度,我们认为可以合理地将其视为人工通用智能(AGI)系统的早期(但仍不完整)版本。在我们对GPT-4的探索中,我们特别强调发现它的局限性,并讨论了在向更深入和更全面的AGI版本迈进时面临的挑战,包括可能需要追求一种超越下一个单词预测的新范式。最后,我们对近期技术飞跃的社会影响和未来的研究方向进行了思考。内内容容1介紹41.1我们研究GPT-4情报的方法71.2组织我们的示范活动。82多模态和跨学科构成132.1综合能力.132.2愿景.162.2.1超越记忆的图像生成.162.2.2按照详细的指示生成图像(a la Dall-E)。.172.2.3在草图生成中可能的应用.182.3音乐.
4、193编码213.1从指令到代码.213.1.1编码挑战.213.1.2现实世界的情景.223.2了解现有代码.26arXiv:2303.12712v1 cs.CL 2023年3月22日24数学能力304.1与GPT-4的数学对话.314.1.1对原问题的第一个概括.314.1.2原问题的第二个变体.324.1.3对谈话中强调的局限性的分析.344.2数学问题数据集上的表现.354.3各个领域的数学建模.374.4高等数学.395与世界的互动435.1工具的使用.435.1.1使用多种工具来解决更复杂的任务.445.1.2讨论.495.2体现的互动.495.2.1热身运动:地图导航.495.2
5、.2基于文本的游戏.495.2.3真实世界的问题.525.2.4讨论.536与人类的互动546.1了解人类:心智理论.546.1.1测试心智理论的具体方面.546.1.2在现实的场景中测试心智理论.546.1.3讨论.606.2与人类对话:可解释性.607辨别能力697.1PII检测.697.2误解与事实核查.707.2.1为什么目前的衡量标准是不充分的?.717.2.2担任法官的GPT-4.738GPT-4所强调的自回归结构的局限性768.1用两个基本的例子进行热身.768.2在算术/推理问题上缺乏计划性.778.3在文本生成中缺乏规划.789社会影响829.1错误世代的挑战.829.2虚假
6、信息和操纵.839.3偏向.869.4人的专长、工作和经济.899.5影响因素和考虑因素的组合.9010方向和结论9210.1智能、人工智能和AGI的定义.9210.2在通往更普遍的人工智能的道路上.9310.3实际上发生了什么?.94一个GPT-4有常识性接地101B多模态和跨学科组成的附录105B.1关于综合能力结果的进一步细节.105B.2关于视觉结果的进一步细节.1083B.3平面小说设计实例.110C编码部分的附录111C.1测量人类在LeetCode上的表现.111C.2GPT-4可视化IMDb数据的例子。.112C.3更多关于可视化的例子.115C.4二维HTML游戏开发实例.1