《斯坦福大学:2025年人工智能指数报告(官方中文版)(456页).pdf》由会员分享,可在线阅读,更多相关《斯坦福大学:2025年人工智能指数报告(官方中文版)(456页).pdf(456页珍藏版)》请在三个皮匠报告上搜索。
1、2025年人工智能指数报告介绍2025年人工智能指数报告欢迎阅读第八版人工智能指数报告。恰逢人工智能对社会、经济和全球治理的影响不断加强的关键时期,我们在这一重要时刻发布了 2025 年人工智能指数报告。它也是我们迄今为止发布过的最全面的指数。今年的报告新增了对人工智能硬件发展状况的深入分析、对推理成本的新估算,以及对人工智能论文发表和专利申请趋势的新分析。我们还首次披露了企业采用负责任的人工智能实践的最新数据,并扩展了人工智能在科学和医学领域日益重要的作用的分析维度。发起于 2017 年,作为“人工智能百年研究(One Hundred Year Study of Artificial Int
2、elligence)”项目分支,人工智能指数报告一直致力于为政策制定者、新闻工作者、高管、研究人员和公众提供准确、经过严格验证和全球来源的数据。我们的使命始终如一:帮助这些利益相关方就人工智能的发展和部署做出更明智的决策。在这个从会议室到厨房餐桌到处都在讨论人工智能的世界里,这一使命显得尤为重要。从地缘政治格局的变化和底层技术的快速发展,到人工智能在商业、决策和公共生活中不断扩大的作用,人工智能指数持续引领行业关键趋势的追踪与解读。纵向追踪始终是我们的核心任务。在这一高速发展的领域,本报告提供了重要的背景信息:帮助我们了解人工智能的现状、发展历程以及未来走向。作为全球公认的人工智能领域权威资源
3、之一,人工智能指数报告被纽约时报、彭博社和卫报等主要媒体引用,成为数百篇学术论文的文献参考,并服务于世界各地的政策制定者和政府机构。我们已经向埃森哲、IBM、富国银行和富达等公司提供了人工智能现状的简报,并将继续为全球人工智能生态系统输送独立见解。12025年人工智能指数报告联合主任致辞随着人工智能持续重塑人类生活、企业界和公共话语体系,人工智能指数报告始终跟踪其进展情况,通过独立的、数据驱动的视角,跨时间、跨地域地全方位观察人工智能的发展、应用和影响。对于人工智能来说,2024 年是多么美好的一年。诺贝尔物理学奖和化学奖,以及因强化学习方面的奠基性工作而获得的图灵奖,都体现了人们对人工智能在
4、推动人类知识进步方面所起作用的认可。曾经令人望而生畏的图灵测试已不再被视为一个雄心勃勃的目标,今天的精尖系统已经超越了它。与此同时,人工智能的应用正以前所未有的速度渗透社会生活,数以百万计的人们在专业工作和休闲活动中高频使用人工智能。随着高性能、低成本和开源模型的普及,人工智能的可及性和影响力必将进一步扩大。在经历了短暂的放缓之后,企业对人工智能的投资出现反弹。生成式人工智能初创企业融资案例数量增加了近三倍。商业应用在经过多年的低迷后于 2024 年迎来显著增长。人工智能已从边缘领域成为业务价值的核心驱动力。各国政府也在加大参与力度。政策制定者们不再停留于讨论人工智能,他们正在对其进行投资。一
5、些国家启动了价值数十亿美元体量的国家人工智能基础设施计划,包括能源扩容以支持人工智能发展的重大努力。全球协作机制日益完善,地方性措施也同步成型。然而,信任仍然是一项重大挑战。公众对人工智能企业数据保护能力的信任度持续走低,对算法公平性和偏见的担忧依然存在。虚假信息继续构成风险,深度伪造技术在选举等场景的滥用引发广泛担忧。对此,各国政府正在推进新的监管框架,旨在促进透明度、负责任和公平性。公众的态度也在转变。2024 年的一项全球调查显示,尽管疑虑犹存,公众对人工智能带来广泛社会效益的潜力的乐观情绪明显上升。人工智能不再只是一个关于可能发生什么的故事,而是一个关于正在发生什么以及我们如何共同塑造
6、人类未来的故事。敬请品读本年度人工智能指数报告并亲自洞见这一切。Yolanda Gil 和 Raymond Perrault人工智能指数报告联合主任22025年人工智能指数报告核心要点1.人工智能在严苛在严苛比较基准测试中测试中的性能性能持续提升。2023 年,研究人员推出了 MMMU、GPQA 和 SWE-bench 等一系列新型比较基准,旨在测试前沿人工智能系统的极限。仅一年后,性能就大幅提升:MMMU、GPQA 和 SWE-bench 的得分分别提高了 18.8%、48.9%和 67.3%。除这些比较基准,人工智能系统在生成高质量视频方面也取得了重大进展,在某些特定场景下,基于语言模型的
7、智能体在时间受限的编程任务中甚至表现优于人类。2.人工智能日益融入日常生活。从医疗到交通,人工智能正迅速从实验室走向日常生活。2023 年,美国食品和药物管理局(FDA)批准的人工智能医疗设备达 223 款,较 2015 年的 6 款实现跨越式增长。在公共道路上,自动驾驶汽车已走出试验阶段:美国头部运营商之一 Waymo 每周提供超过 15 万次自动驾驶乘车服务,而百度推出的经济型 Apollo Go 自动驾驶出租车所提供的服务目前已覆盖中国众多城市。3.随着不断的研究的研究显示出人工智能对生产效率的强大影响,企业界全面拥抱人工智能,投资与应用双创新高。2024 年,美国私人人工智能投资达 1
8、091 亿美元,约为中国(93 亿美元)的 12 倍、英国(45 亿美元)的 24 倍。生成式人工智能的发展势头尤为强劲,吸引了全球 339 亿美元的私人投资同比增长了 18.7%。人工智能的商业应用也在加速普及,78%的企业在 2024 年应用了人工智能技术,较前一年的 55%有所提升。同时,越来越多的研究证实,人工智能不仅可以提高生产效率,在多数情况下还有助于缩小劳动力的技能差距。4.美国在开发顶级人工智能模型方面仍处于领先地位,但中国正在缩小与美国的差距。2024 年,美国机构共开发了 40 个标志性的人工智能模型,而中国只有 15 个,欧洲只有 3 个。虽然美国在数量上保持领先,但中国
9、的模型在质量上迅速缩小了差距:在 MMLU 和 HumanEval 等主要比较基准上的性能差距从 2023 年的两位数缩小到 2024 年的接近持平。中国在人工智能论文和专利方面继续保持领先。模型开发日益全球化,中东、拉美和东南亚都推出了引人注目的模型。5.负责任的人工智能生态系统发展不平衡。在人工智能相关的事故激增的同时,主要的工业模型开发商采用标准化的负责任的人工智能(Responsible AI,RAI)评测仍然很少见。不过,HELM Safety、AIR-Bench 和 FACTS 等新比较基准为评估真实性和安全性提供了前景广阔的工具。企业层面,对负责任的人工智能风险的认知与实质性行动
10、之间仍存在差距。相较而言,各国政府则表现出了更强的紧迫感:2024年,全球人工智能合作显著深化,经合组织、欧盟、联合国和非盟等组织相继发布了监管框架,聚焦透明度、可信度等负责任的人工智能核心原则。32025年人工智能指数报告核心要点(续)6.全球对人工智能的乐观情绪正在攀升,但地区间仍存在较大差异较大差异。在中国(83%)、印度尼西亚(80%)和泰国(77%)等国家,绝大多数人认为人工智能产品和服务利大于弊。相比之下,加拿大(40%)、美国(39%)和荷兰(36%)等地的乐观程度仍然较低。不过,人们的情绪正在转变。自 2022 年以来,多个原持怀疑态度的国家的乐观情绪大幅增长,包括德国(+10
11、%)、法国(+10%)、加拿大(+8%)、英国(+8%)和美国(+4%)。7.人工智能变得更加高效、经济和易用。依托小型模型能力跃升,执行 GPT-3.5 级别的系统的推理成本在 2022 年 11 月至2024 年 10 月间骤降 280 多倍。硬件层面,年化成本降幅达 30%,能效年提升率达 40%。开源模型正在缩小与闭源模型的差距,在某些比较基准上,性能差距从 8%缩小到仅 1.7%。这些趋势加在一起,正在迅速降低先进人工智能的应用门槛。8.各国政府正在加强对人工智能的监管和投资。2024年,美国联邦机构出台了59项与人工智能相关的法规,是2023年的两倍多,发布法规的机构数量也是 20
12、23 年的两倍。全球范围内,75 个国家的人工智能立法提及率自 2023 年以来增长 21.3%,较 2016年累计增幅达9倍。加强监管的同时,各国政府展开大规模投资:加拿大承诺投资24亿美元,中国启动了475亿美元的半导体基金,法国承诺投资 1090 亿欧元,印度拨款 12.5 亿美元,沙特阿拉伯更推出规模达千亿美元的“超越计划(Project Transcendence)”。9.人工智能和计算机科学教育加速普及,但在资源获取和准备程度方面仍存落差。全球三分之二的国家现在已实施或规划基础教育阶段计算机科学教育,覆盖率是 2019 年的两倍,其中非洲和拉美地区进展最为显著。美国过去 10 年中
13、计算机专业本科毕业生人数增长 22%。然而,在许多非洲国家,由于电力等基础设施的不足,获得计算机学位的机会仍然有限。在美国,81%基础教育阶段的计算机教师认同将人工智能纳入基础课程,但只有不到一半的教师认为自己具备相关教学能力。10.产业依然在人工智能竞争中引领但技术前沿竞争加剧。2024 年,全球近 90%的标志性的人工智能模型来自产业界,高于 2023 年的 60%,而学术界仍然是高引用率研究的首要来源。模型规模持续快速扩张训练计算每五个月翻一番,数据集每八个月倍增,能耗年增速 100%。然而模型性能差距正在缩小,一年内,榜首和第十名模型的 Elo 技能得分差距从 11.9%降至5.4%,
14、现在前两名的差距仅为 0.7%。技术前沿领域的竞争日趋激烈,头部阵营也日益集聚。42025年人工智能指数报告核心要点(续)11.人工智能因其科学影响力获得最高学术荣誉。人工智能日益增长的重要性在重大科学奖项中得到了体现:两项诺贝尔奖分别授予深度学习(物理学奖)及人工智能在蛋白质折叠中的应用(化学奖),图灵奖则颁给了对强化学习的突破性贡献。12.复杂推理仍是一项挑战。人工智能模型在国际数学奥林匹克竞赛问题等任务中表现出色,但在 PlanBench 等复杂推理比较基准中仍然举步维艰。即使存在理论正确解法,它们也常常无法可靠地解决逻辑任务。在精度至关重要的领域里,人工智能的有效性依然存在局限。520
15、25年人工智能指数报告指导委员会主席Raymond Perrault SRI 国际研究院当选主席Yolanda Gil南加州大学信息科学研究所工作人员和研究人员研究主管兼总编辑Nestor Maslej,斯坦福大学研究助理Loredana Fattorini,斯坦福大学附属研究员Elif Kiesow Cortez,斯坦福法学院研究员Julia Betts Lotufo,研究员Anka Reuel,斯坦福大学Alexandra Rome,研究员Angelo Salatino,英国开放大学知识媒体研究所Lapo Santarlasci,卢卡高等研究学院研究生研究员Emily Capstick,斯
16、坦福大学Malou van Draanen Glismann,斯坦福大学Njenga Kariuki,斯坦福大学本科生研究员Armin Hamrah,克莱蒙特 麦肯纳学院Sukrut Oak,斯坦福大学Ngorli Fiifi Paintsil,斯坦福大学Andrew Shi,斯坦福大学成员Erik Brynjolfsson 斯坦福大学Jack Clark Anthropic,OECDJohn Etchemendy 斯坦福大学Katrina Ligett希伯来大学Terah Lyons摩根大通James Manyika 谷歌牛津大学Juan Carlos Niebles 斯坦福大学Salesf
17、orceVanessa Parli 斯坦福大学Yoav Shoham 斯坦福大学 AI21 实验室Russell Wald 斯坦福大学Tobi Walsh悉尼新南威尔士大学62025年人工智能指数报告如何引用本报告Nestor Maslej,Loredana Fattorini,Raymond Perrault,Yolanda Gil,Vanessa Parli,Njenga Kariuki,Emily Capstick,Anka Reuel,Erik Brynjolfsson,John Etchemendy,Katrina Ligett,Terah Lyons,James Manyika,J
18、uan Carlos Niebles,Yoav Shoham,Russell Wald,Tobi Walsh,Armin Hamrah,Lapo Santarlasci,Julia Betts Lotufo,Alexandra Rome,Andrew Shi,Sukrut Oak.“The AI Index 2025 Annual Report,”AI Index Steering Commmittee,Institute for Human-Centered AI,Stan-ford University,Stanford,CA,April 2025.The AI Index 2025 An
19、nual Report by Stanford University is licensed under Attribution-NoDerivatives 4.0 International.公共数据和工具2025 年人工智能指数报告附有原始数据和互动工具。我们邀请每位读者根据自己的工作和兴趣使用这些数据和工具。原始数据和图表:报告中所有图表:的公开数据和高分辨率图像可在 Google Drive 上获取。Global AI Vibrancy Tool:比较 30 多个国家的人工智能生态系统。Global AI Vibrancy Tool 将于 2025 年夏季更新。人工智能指数(AI In
20、dex)和斯坦福大学 HAI人工智能指数(AI Index)是斯坦福大学以人为本人工智能研究院(Stanford Institute for Human-Centered Artificial Intelligence,HAI)的独立研究项目。人工智能指数(AI Index)最初源自人工智能百年研究(One Hundred Year Study on Artificial Intelligence)项目(AI100)首个官方中文版由 AI Index 与其亚洲合作伙伴 Digital Civilization 合作组织与统筹,作为拓展 AI Index 在亚洲影响力并推动区域生态体系建设的一项
21、重要举措。我们欢迎来自各界的个人与机构提供反馈并参与合作,共同推动构建一个更具包容性、以人为本的人工智能社区。人工智能指数欢迎对明年报告的反馈和新想法。请通过 nmaslejstanford.edu 联系我们。人工智能指数承认,尽管该报告由一支人类研究人员团队撰写,但其写作过程得到了人工智能工具的辅助。具体而言,作者使用了 ChatGPT 和 Claude 帮助完善和校对初稿。工作流程包括作者撰写原始内容,并将在编辑过程中作为工作流程的一部分使用人工智能工具。72025年人工智能指数报告支持型合作伙伴分析研究合作伙伴82025年人工智能指数报告贡献者人工智能指数谨此感谢以下各位专家在各章节和部
22、分中为2025 年人工智能指数报告提供的数据、分析、建议及专业评论:介绍Loredana Fattorini,Yolanda Gil,Nestor Maslej,Vanessa Parli,Ray Perrault第一章 研究与开发Nancy Amato,Andrea Brown,Ben Cottier,Luca Ronchi Darr,Virginia Dignum,Meredith Ellison,Robin Evans,Loredana Fattorini,Yolanda Gil,Armin Hamrah,Katrina Ligett,Nestor Maslej,Maurice Pagn
23、ucco,Ngorli Fiifi Paintsil,Vanessa Parli,Ray Perrault,Robi Rahman,Christine Raval,Vesna Sabljakovic-Fritz,Angelo Salatino,Lapo Santarlasci,Andrew Shi,Nathan Sturtevant,Daniel Weld,Kevin Xu,Meg Young第二章 技术性能Rishi Bommasani,Erik Brynjolfsson,Loredana Fattorini,Tobi Gertsenberg,Yolanda Gil,Noah Goodman
24、,Nicholas Haber,Armin Hamrah,Sanmi Koyejo,Percy Liang,Katrina Ligett,Nestor Maslej,Juan Carlos Niebles,Sukrut Oak,Vanessa Parli,Marco Pavone,Ray Perrault,Anka Reuel,Andrew Shi,Yoav Shoham,Toby Walsh第三章 负责任的人工智能Medha Bankhwal,Emily Capstick,Dmytro Chumachenko,Patrick Connolly,Natalia Dorogi,Loredana
25、Fattorini,Ann Fitz-Gerald,Yolanda Gil,Armin Hamrah,Ariel Lee,Katrina Ligett,Shayne Longpre,Nestor Maslej,Katherine Ottenbreit,Halyna Padalko,Vanessa Parli,Ray Perrault,Brittany Presten,Anka Reuel,Roger Roberts,Andrew Shi,Georgio Stoev,Shekhar Tewari,Dikshita Venkatesh,Cayla Volandes,Jakub Wiatrak第四章
26、 经济Medha Bankhwal,Erik Brynjolfsson,Mar carpanelli,Cara Christopher,Michael Chui,Natalia Dorogi,Heather English,Murat Erer,Loredana Fattorini,Yolanda Gil,Heather Hanselman,Rosie Hood,Vishy Kamalapuram,Kory Kantenha,Njenga Kariuki,Akash Kaura,Elena Magrini,Nestor Maslej,Katherine Ottenbreit,Vanessa P
27、arli,Ray Perrault,Brittany Presten,Roger Roberts,Cayla Volandes,Casey Weston,Hansen Yang第五章 科学与医学Russ Altman,Kameron Black,Jonathan Chen,Jean-Benoit Delbrouck,Joshua Edrich,Loredana Fattorini,Alejandro Lozano,Yolanda Gil,Ethan Goh,Armin Hamrah,Fateme Nateghi Haredasht,Tina Hernandez-Boussard,Yeon Mi
28、 Hwang,Rohan Koodli,Arman Koul,Curt Langlotz,Ashley Lewis,Chase Ludwig,Stephen P.Ma,Abdoul Jalil Djiberou Mahamadou,David Magnus,James Manyika,Nestor Maslej,Gowri Nayar,Madelena Ng,Sophie Ostmeier,Vanessa Parli,Ray Perrault,Malkiva Pillai,Ossian Karl-Johan Ferdinand Rabow,Sean Riordan,Brennan Geti S
29、imon,Kotoha Togami,Artem Trotsyuk,Maya Varma,Quinn Waeiss,Betty Xiong第六章 政策Elif Kiesow Cortez,Loredana Fattorini,Yolanda Gil,Julia Betts Lotufo,Vanessa Parli,Ray Perrault,Alexandra Rome,Lapo Santarlasci,Georgio Stoev,Russell Wald,Daniel Zhang92025年人工智能指数报告组织机构AccentureArnab Chakraborty,Patrick Conno
30、lly,Shekhar Tewari,Dikshita Venkatesh,Jakub WiatrakEpoch AIBen Cottier,Robi RahmanGitHubLuca Ronchi Darr,Kevin XuLightcastCara Christopher,Elena MagriniLinkedIn03 Carpanelli,Akash Kaura Kory Kantenga,Rosie Hood,Casey WestonMcKinsey&CompanyMedha Bankhwal,Natalia Dorogi,Katherine Ottenbreit,Brittany P
31、resten,Roger Roberts,Cayla VolandesQuidHeather English,Hansen Yang第七章 教育John Etchemendy,Loredana Fattorini,Lili Gangas,Yolanda Gil,Rachel Goins,Laura Hinton,Sonia Koshy,Kirsten Lund-gren,Nestor Maslej,Lisa Cruz 11ohatski,Vanessa Parli,Ray Perrault,Allison Scott,Andreen Soley,Bryan Twarek,Lau-rens Ve
32、hmeijer第八章 公共观点Emily Capstick,John Etchemendy,Loredana Fattorini,Yolanda Gil,Njenga Kariuki,Nestor Maslej,Vanessa Parli,Ray Perrault人工智能指数谨此感谢以下各位专家在各章节和部分中为2025 年人工智能指数报告提供的数据、分析、建议及专业评论:人工智能指数还感谢以下人士在准备本报告过程中提供的帮助:Jeanina Matias、Nancy King、Carolyn Lehman、Shana Lynch、Jonathan Mindes 和 Michi Turner;
33、感谢 Christopher Ellis 在维护人工智能指数网站方面提供的帮助;以及感谢 Annie Benisch、Stacey Sickels Boyce、Marc Gough、Caroline Meinhardt、Drew Spence、Casey Weston、Madeleine Wright 和 Daniel Zhang 在帮助推广本报告方面所做的工作。我们感谢 Jason Liu 在推动 AI Index 中文版过程中所发挥的重要作用。展望未来,我们将持续致力于提升 AI Index 的全球可及性,并加强在亚洲区域的生态协同建设。10贡献者(续)2025年人工智能指数报告目录报告核
34、心要点第一章第二章第三章第四章第五章第六章第七章第八章附录研究与开发技术性能负责任的人工智能经济科学与医学政策与治理教育公共观点122481160214280323364394414获取公共数据112025年人工智能指数报告报告核心要点第一章:研究与开发1.产业界产业界持续加大人工智能投入并主导标志性人工智能模型研发,而学术界则引领高影响力研究。产业界在标志性人工智能模型研发中的主导优势持续强化,这一趋势在既往两期人工智能指数报告中已有明确阐述。2024 年,近 90%的前沿模型源自产业界(较2023 年的 60%提升 30 个百分点)。学术界在过去三年中始终是高被引(前 100 名)论文的首
35、要机构贡献者。2.中国在人工智能论文发表总量上领先,而美国在具有高影响力的研究方面占据优势。2023 年,中国在人工智能领域的论文发表量(23.2%)和引用量(22.6%)均位居全球首位。而在过去三年中,美国机构贡献了最多被引用次数排名前 100 的人工智能论文。3.人工智能论文发表总量持续增长,并在计算机科学领域占据日益重要的主导地位。从 2013 年到 2023 年,在计算机科学和其他科学学科领域发表的人工智能论文发表总数几乎增加了两倍,从大约 102,000 篇增加到超过 242,000 篇。从比例上看,人工智能在计算机科学论文中所占的份额已从 2013 年的 21.6%上升到 2023
36、 年的 41.8%。4.美国仍然是标志性人工智能模型的主要来源地。2024 年,美国机构开发了 40 个标志性人工智能模型,大大超过中国的 15 个和欧洲的 3 个。在过去十年,源自美国的标志性机器学习模型比任何其他国家都多。2024 年,美国机构共开发出 40 个前沿人工智能模型,显著超过中国的 15 个和欧洲地区的合计的 3 个。过去十年间,美国在前沿机器学习模型的研发数量上持续保持全球领先地位。5.人工智能模型正变得规模更大、算力需求更高、能耗更强。最新研究表明,标志性人工智能模型的训练算力需求约每 5 个月翻一番,大语言模型训练数据集规模每 8 个月翻一番,而训练所需功耗每年递增。大规
37、模的产业投资持续推动着模型规模扩大和性能提升。6.人工智能模型的使用成本持续下降。以语言模型性能评估常用基准MMLU 为例,达到 GPT-3.5 水平(64.8 分)的人工智能模型查询成本已从 2022 年 11 月的每百万词元 20 美元,降至 2024 年 10 月的仅每百万词元 0.07 美元(Gemini-1.5-Flash-8B 模型),18 个月内降幅超 280 倍。根据任务类型不同,大语言模型的推理价格年降幅已达 9 至 900 倍不等。122025年人工智能指数报告报告核心要点第一章:研究与开发(续)7.人工智能专利申请持续上升。从 2010 年到 2023 年,人工智能专利数
38、量稳步大幅增长,从 3833 项激增到 122511 项。仅在去年,人工智能专利数量就增长了 29.6%。截至 2023 年,中国在人工智能专利总数上遥遥领先,占所有授权的 69.7%,而按人均计算,韩国和卢森堡则是人工智能专利的主要生产国。8.人工智能硬件变得更快、更便宜、更节能。最新研究表明,以 16 位浮点运算能力衡量的机器学习硬件性能正以每年 43%的速度增长,每 1.9 年实现翻倍。其性价比显著提升成本每年下降 30%,而能效则以每年 40%的幅度持续改善。9.人工智能训练产生的碳排放量正在稳步上升。早期训练的人工智能模型,如 AlexNet 网络(2012 年),碳排放量不大,仅为
39、 0.01 吨。最新人工智能模型的训练碳排放量显著增加:2020 年 GPT-3 为 588 吨,2023 年 GPT-4 达 5,184 吨,而 2024 年 Llama 3.1 405B 更是高达 8,930 吨。作为对比,美国人年均碳排放量仅为 18 吨。第二章:技术性能1.人工智能达成达成新比较基准的速度比以往任何时候都快。2023 年,研究人员推出了 MMMU、GPQA 和 SWE-bench 等多个具有挑战性的新比较基准,旨在测试日益强大的人工智能系统极限。到 2024 年,人工智能在这些比较基准上的表现取得显著突破:MMMU 和GPQA 测试成绩分别提升 18.8 和 48.9
40、个百分点;更引人注目的是,在 SWE-bench 编程测试中,人工智能系统的解题能力从2023 年仅能解决 4.4%的问题,跃升至 2024 年的 71.7%。2.开源模型迎头赶上。根据去年发布的人工智能指数报告,领先的开源模型曾大幅落后于闭源模型。而到 2024 年,这一差距已基本消失。具体来看,2024 年 1 月初,在 Chatbot Arena Leaderboard 上,顶尖闭源模型的性能优势为 8.0%;而到 2025 年 2 月,这一差距已缩小至 1.7%。132025年人工智能指数报告报告核心要点第二章:技术性能(续)3.中美人工智能模型能力差距缩小。2023 年,美国顶尖人工
41、智能模型性能曾大幅领先中国同类产品,但这一态势现已改变。数据显示:截至 2023 年底,在 MMLU、MMMU、MATH 和 HumanEval 等比较基准中,中美模型的性能差距分别为 17.5、13.5、24.3 和31.6 个百分点;而到 2024 年末,这些差距已大幅收窄至 0.3、8.1、1.6 和 3.7 个百分点。4.前沿的人工智能模型的性能趋于收敛。根据去年的人工智能指数,Chatbot Arena Leaderboard 上排名第一与第十的模型间 Elo分数差已从去年的 11.9%收窄至 2025 年初的 5.4%。同样,排名前两位的模型之间的差距也从 2023 年的 4.9%
42、缩小到 2024 年的 0.7%。人工智能领域的竞争日趋激烈,如今有越来越多的开发者推出了高质量的模型。5.新型推理范式,如测试时计算(test-time compute),显著提升模型性能。2024 年,OpenAI 推出的 o1、o3 等模型采用迭代式输出推理架构。这种测试时计算方法极大地提高了模型的性能,o1 在国际数学奥林匹克资格考试中获得了 74.4%的高分,GPT-4o只有 9.3%。但该技术存在代价,o1 的运算成本激增至 GPT-4o 的 6 倍,推理速度则降低 30 倍。6.更具挑战性的比较基准不断被提出。MMLU、GSM8K 和 HumanEval 等传统人工智能比较基准已
43、趋近饱和,加上 MMMU 和GPQA 等更新的更具挑战性的比较基准表现持续提升,促使研究人员探索更多针对领先人工智能系统的评价方法。其中值得注意的有人类最后的考试(Humanitys Last Exam),这是一项严格的学术测试,最先进的人工智能系统的得分率仅为 8.80%;前沿数学(Frontier Math),这是一项复杂的数学比较基准,人工智能系统仅解决了 2%的问题;“BigCodeBench”这是一项编码比较基准,人工智能系统的成功率仅为 35.5%,远低于人类 97%的水平。7.高质量人工智能视频生成模型实现重大突破。2024 年,多款能够根据文本输入生成高清视频的先进人工智能模型
44、相继问世,其中包括 OpenAI 的 SORA、Stable Video Diffusion 3D 和 4D、Meta 的 Movie Gen,以及谷歌 DeepMind 的 Veo 2。与 2023 年的视频生成模型相比,这些新一代模型在画质表现上取得显著提升。142025年人工智能指数报告报告核心要点第二章:技术性能(续)8.小型模型展现更强性能。2022 年,在 MMLU 比较基准中达到 60%以上分数的最小模型是拥有 5400 亿参数的 PaLM;而到2024 年,微软推出的 Phi-3-mini 仅用 38 亿参数就实现了相同水平相当于两年间参数规模缩减了 142 倍。9.复杂推理仍
45、是人工智能面对的难题。尽管通过思维链(Chain-of-Thought)等推理机制的引入显著提升了大语言模型的性能,这些系统仍无法可靠解决本可通过逻辑推理获得确定性答案的问题包括数学运算和任务规划等,尤其当问题规模超出其训练范围时。这一缺陷严重影响了人工智能系统的可信度,使其难以胜任高风险场景的应用需求。10.人工智能智能体展现初步潜力。2024 年推出的 RE-Bench 基准为评估 AI 智能体的复杂任务能力建立了严格标准。在短时任务(2 小时时限)中,顶级人工智能系统的得分可达人类专家的 4 倍;但随着时间延长至 32 小时,人类表现反超人工智能系统,得分达到 2:1 的优势。AI 智能
46、体已在特定领域,如编写 Triton Kernels,达到人类专业水平,且能更快、更低成本地产出结果。第三章:负责任的人工智能1.目前,依据负责任的人工智能(RAI)准则对人工智能系统进行评估的做法尚未普及,但新的比较基准体系正在逐步形成。去年的人工智能指数曾着重指出,目前缺乏针对大语言模型的标准化 RAI 比较基准。虽然这一问题依然存在,但 HELM Safety 和AIR-Bench 等新比较基准的出现有助于填补这一空白。2.人工智能事件报告数量持续增加。根据人工智能事件数据库(AI Incidents Database)统计,2024 年报告的人工智能相关事件增至 233 起,创历史新高
47、,比 2023 年增加 56.4%。152025年人工智能指数报告报告核心要点第三章:负责任的人工智能(续)3.各类机构虽意识到负责任的人工智能风险,但风险缓解措施滞后。麦肯锡一项关于企业 RAI 实施情况的调查显示,尽管多数机构能识别关键 RAI 风险,但并非所有机构都采取了积极应对措施。在领导者最关注的风险维度中,模型准确性问题(64%受访者提及)、合规性风险(63%)以及网络安全威胁(60%)位列前三,但值得注意的是,将这些风险列为核心关注点的受访者比例均未超过65%。4.在全球范围内,政策制定者对负责任的人工智能表现出浓厚兴趣。2024 年,全球加强了人工智能治理方面的合作,重点是协商
48、确定负责任的人工智能的原则。多个国际组织,包括经济合作与发展组织(OECD)、欧盟、联合国及非洲联盟,相继发布规范性框架,阐释了透明度与可解释性、可信度等 RAI 重点。5.公共数据资源正在迅速萎缩。人工智能模型的训练依赖于海量公开网络数据,但最新研究表明,2023 至 2024 年间数据使用限制显著增加,因为众多网站实施了新协议以限制人工智能训练的数据爬取。在 C4 通用爬取数据集持续维护的域名中,受限制文本数据的比例已从 5-7%骤升至 20-33%。这种下降态势将影响数据多样性、模型对齐性和系统可扩展性,并可能催生数据约束条件下的新型学习范式。6.基础模型研究透明度提高,但仍任重道远。最
49、新发布的基础模型透明度指数(Foundation Model Transparency Index)一个跟踪基础模型生态系统透明度的项目显示,主要模型开发者的平均透明度得分从 2023 年 10 月的 37%提高到了 2024 年 5月的 58%。虽然进展显著,但仍有相当大的改进空间。7.对事实性与真实性评估的比较基准正不断完善。早期比较基准,如 HaluEval 和 TruthfulQA,虽旨在评估人工智能模型的事实性与真实性,但未能在人工智能领域获得广泛应用。为此,更新、更全面的评估方案出现,包括升级版的 Hughes 幻觉评估模型排行榜(Hughes Hallucination Eval
50、uation Model leaderboard)、FACTS 评估框架以及 SimpleQA 测试集。8.与人工智能相关的选举虚假信息在全球蔓延,但其影响仍不明确。2024 年,在十多个国家和超过十个社交媒体平台上出现了大量与人工智能相关的选举虚假信息,包括在美国总统大选期间。然而,人们对这一问题的可衡量影响仍存在诸多疑问,许多人认为虚假信息活动对选举的影响比实际情况更为深远。162025年人工智能指数报告报告核心要点第三章:负责任的人工智能(续)9.接受过显性无偏见训练的大语言模型仍会表现出隐性偏见。许多先进的大语言模型,包括 GPT-4 和 Claude 3 Sonnet,在设计时都采取
51、了抑制显性偏见的措施,但它们仍然表现出隐性偏见。这些模型过度地将负面词汇与黑人群体关联,更多将女性与人文学科而不是理工科(STEM)领域联系在一起,并偏爱男性担任有领导力的角色,从而加剧了决策中的种族与性别偏见。虽然偏见评价结果在标准比较基准上有所改善,但人工智能模型偏见仍是一个普遍存在的问题。10.负责任的人工智能获得了学术研究人员的关注。2024 年,全球顶级人工智能会议收录的负责任的人工智能论文数量达到 1,278篇,较 2023 年的 992 篇增长 28.8%,自 2019 年以来持续保持稳定的年增长率。这一上升趋势凸显了负责任的人工智能在人工智能研究界日益增长的重要性。第四章:经济
52、1.全球私人人工智能投资创历史新高,增长 26%。2024 年,全球企业人工智能投资规模达到 2523 亿美元,其中私人投资同比增长44.5%,并购交易规模较上年增长 12.1%。过去十年间,该领域经历显著扩张,自 2014 年以来,总投资规模增长逾十三倍。2.生成式人工智能投资规模激增。2024 年,生成式人工智能领域的私人投资达到 339 亿美元,比 2023 年增长 18.7%,是 2022 年水平的 8.5 倍以上。该领域目前占所有人工智能相关私人投资总额的 20%以上。3.美国扩大了其在全球人工智能私人投资中的领先优势。2024 年,美国人工智能私人投资规模达到 1091 亿美元,相
53、当于中国的近12 倍(93 亿美元),英国的 24 倍(45 亿美元)。在生成式人工智能领域,美国投资总额较中国、欧盟及英国投资总和还多 254 亿美元,较 2023 年 218 亿美元的差额继续扩大。4.人工智能的使用达到前所未有的水平。2024 年,受访企业报告采用人工智能技术的比例从 2023 年的 55%跃升至 78%。同样,在至少一项业务职能中使用生成式人工智能的受访者数量增长逾一倍从 2023 年的 33%上升至 2024 年的 71%。172025年人工智能指数报告报告核心要点第四章:经济(续)5.人工智能已开始在多个业务职能领域产生财务效益,但大多数企业仍处于应用初期阶段。报告
54、显示,在单一业务职能内应用人工智能并取得财务效益的企业中,多数反馈效益水平仍处于较低区间。在成本节约方面,在客户服务运营中使用人工智能的企业中有49%的受访者报告实现降本,供应链管理领域这一比例为 43%,软件工程领域为 41%。不过,这些企业报告的成本降幅大多不足10%。在收入增长方面,营销与销售部门应用人工智能的企业中有 71%的受访者报告收入提升,供应链管理领域为 63%,服务运营领域为 57%。但需要指出的是,这些收入增幅普遍低于 5%。6.人工智能的应用呈现出明显的区域差异,其中大中华区正迅速崛起。尽管北美地区仍保持着企业人工智能应用率的领先地位,但大中华区是同比增长率最高的地区之一
55、,其企业人工智能采用率提升了 27%。欧洲紧随其后,实现了 23%的增长,这表明全球人工智能格局正在快速演变,各国在人工智能应用领域的国际竞争也日趋激烈。7.中国在工业机器人领域仍占据主导地位,虽略有放缓。2023 年,中国安装 27.63 万台工业机器人,是日本的 6 倍,美国的 7.3 倍。自 2013 年超过日本以来,中国在全球工业机器人安装量中的份额从 20.8%上升至 51.1%。虽然中国的机器人安装量继续超过世界其他国家的总和,但这一差距在 2023 年略有缩小,标志着其急剧扩张的势头略有放缓。8.协作型和交互式机器人使用日趋普及。2017 年,协作型机器人仅占所有新安装工业机器人
56、的 2.8%,到 2023 年,这一数字攀升至10.5%。同样,2023 年,除医疗机器人外,所有应用领域的服务机器人安装量均呈现增长趋势。这一趋势不仅表明机器人安装量的总体增长,还表明人们越来越重视将机器人部署在面向人类的岗位上。9.人工智能正在推动能源结构的重大变革,并引发对核能的新一轮关注。微软宣布以 16 亿美元重启三哩岛核反应堆,为人工智能提供动力,而谷歌和亚马逊也签订了核能协议,为人工智能业务提供支持。10.人工智能提高生产效率并缩小技能差距。去年的人工智能指数报告是首批强调人工智能对生产效率产生积极影响的研究报告之一。今年更多研究进一步验证了这些发现,证实人工智能不仅能提升生产效
57、率,在多数情况下还有助于缩小高技能与低技能劳动者之间的能力差距。182025年人工智能指数报告报告核心要点第五章:科学与医学1.更先进的大规模蛋白质测序模型问世。包括 ESM3 和 AlphaFold 3 在内的多个高性能大规模蛋白质测序模型相继推出。随着时间的推移,这些模型的规模显著扩大,使得蛋白质预测准确率不断提高。2.人工智能持续推动科学发现的飞速发展。人工智能在科学进步中的作用不断扩大。2022 至 2023 年仅是人工智能驱动科研突破的初始阶段,而 2024 年出现更具突破性的进展,包括训练大语言模型智能体执行生物任务的 Aviary,以及显著增强野火预测能力的 FireSat。3.
58、主流大语言模型的临床知识水平持续提升。OpenAI 最近发布的 o1 在 MedQA 比较基准中创下了 96.0%的新纪录,比 2023 年公布的最佳成绩提高了 5.8%。自 2022 年末以来,该测试性能已累计提升 28.4%。作为评估临床知识的重要比较基准,MedQA 可能正接近性能饱和,预示着需要更具挑战性的评估。这表明需要建立更具挑战性的评估体系。4.人工智能在关键临床任务中的表现优于医生。一项新的研究发现,在诊断复杂的临床病例时,无论是有人工智能还是没有人工智能,仅 GPT-4 就能胜过医生。最近的其他研究表明,人工智能在癌症检测和识别高死亡率风险患者方面超过了医生。不过,一些初步研
59、究表明,人工智能与临床医生的协同诊疗可产生最优结果,这一发现值得作为重点领域开展深入研究。5.美国食品及药物管理局(FDA)批准的人工智能医疗设备数量激增。美国食品药品监督管理局于 1995 年批准了首款人工智能医疗设备。截至 2015 年,仅有 6 款此类设备获批,但这一数字到 2023 年激增至 223 款。6.合成数据在医学领域展现出巨大潜力。2024 年发布的研究表明,人工智能生成的合成数据可以帮助模型更好地识别健康的社会决定因素,加强保护隐私的临床风险预测,并促进新药化合物的发现。2024 年最新研究表明,人工智能生成的合成数据可有效提升模型对健康社会决定因素的识别能力,优化隐私保护
60、型临床风险预测,并促进新药化合物的发现。7.医学人工智能伦理研究文献逐年增加。从 2020 年到 2024 年,医学人工智能伦理方面的论文数量几乎翻了两番,从 2020 年的288 篇增加到 2024 年的 1031 篇。19报告核心要点第五章:科学与医学(续)8.基础模型进入医学领域。8.2024 年,一大波大型医学基础模型发布,涵盖从 Med-Gemini 等通用多模态模型,到面向特定专科的EchoCLIP(超声心动图)、视觉 FM(眼科)及 ChexAgent(放射科)等专用模型。9.公共蛋白质数据库规模不断扩大。自 2021 年以来,主要公共蛋白质科学数据库的条目数量显著增长,其中包括
61、 UniProt(增长31%)、PDB(增长 23%)及 AlphaFold(激增 585%)。这一扩展对科研发现具有重要影响。10.人工智能研究获得两项诺贝尔奖。2024 年,人工智能驱动的研究获得了最高荣誉,两项与人工智能相关的突破获得了诺贝尔奖。谷歌 DeepMind 的德米斯 哈萨比斯(Demis Hassabis)和约翰 朱珀(John Jumper)凭借 AlphaFold 在蛋白质折叠方面的开创性工作获得了诺贝尔化学奖。与此同时,约翰 霍普菲尔德(John Hopfield)和杰弗里 辛顿(Geoffrey Hinton)因其在神经网络方面的奠基性贡献获得了诺贝尔物理学奖。第六章
62、:政策1.美国各州正引领人工智能立法进程,而联邦层面进展相对迟缓。而联邦层面进展相对迟缓。2016 年,只有一项州级人工智能相关法律获得通过,而到 2023年,增加到 49 项。仅在去年,这一数字就翻了一番多,达到 131 项。虽然联邦层面的人工智能法案提案也有所增加,但通过的数量仍然很少。2.世界各国政府都加大人工智能基础设施投资力度。加拿大宣布了一项 24 亿美元的人工智能基础设施一揽子计划,而中国设立475 亿美元半导体产业基金。法国承诺为人工智能基础设施投资 1170 亿美元,印度承诺投资 12.5 亿美元,而沙特阿拉伯的“超越计划”则包括对人工智能的 1000 亿美元投资。3.在全球
63、范围内,人工智能在立法程序中的提及率不断上升。在 75 个国家中,2024 年立法程序中提及人工智能的次数增加了21.3%,从 2023 年的 1557 次增加到 1889 次。自 2016 年以来,人工智能被提及的总数增长了 9 倍多。202025年人工智能指数报告2025年人工智能指数报告报告核心要点第六章:政策(续)4.在全球范围内,人工智能安全研究机构加速扩张与协同合作。2024 年,各国相继成立国际人工智能安全研究机构。首批机构由美国和英国于 2023 年 11 月首届人工智能安全峰会闭幕后率先设立。随着 2024 年 5 月首尔人工智能峰会的召开,日本、法国、德国、意大利、新加坡、
64、韩国、澳大利亚、加拿大及欧盟等国家和地区也相继承诺成立相关机构。5.美国人工智能相关联邦法规数量激增。2024 年,美国出台了 59 项人工智能相关法规,是 2023 年 25 项的两倍多。这些法规来自 42 个机构,是 2023 年出台法规的 21 个机构的两倍。6.美国多州加强深度伪造监管立法。2024 年之前,只有加利福尼亚、密歇根、华盛顿、得克萨斯和明尼苏达五个州颁布了法律,对选举中的深度伪造行为进行监管。2024 年,俄勒冈州、新墨西哥州和纽约州等 15 个州出台了类似措施。此外,到 2024 年,已有24 个州通过了针对深度伪造的法规。第七章:教育1.美国高中计算机科学(Compu
65、ter Science,CS)课程的普及率与选修人数较上一学年略有提升,但教育差距依然存在。学生的参与情况因州、种族和民族、学校规模、地理位置、收入、性别和残疾而异。2.美国的计算机科学教师希望传授人工智能,但认为自己不具备这样的能力。尽管 81%的计算机科学教师认同应将人工智能应用及人工智能基础知识纳入计算机科学基础课程体系,但仅有不足半数的高中计算机科学教师认为自己具备开展人工智能教学的专业能力。3.全世界有三分之二的国家提供或计划提供 K-12 阶段的计算机科学教育。自 2019 年以来,这一比例翻了一番,其中非洲和拉丁美洲国家进展最为显著。然而,由于学校缺乏电力供应,非洲国家学生获得计
66、算机科学教育的机会最少。212025年人工智能指数报告报告核心要点第七章:教育(续)4.2022 年至 2023 年期间,美国获得人工智能硕士学位的毕业生人数几乎翻了一番。尽管人工智能在学士学位和博士学位中的关注度提升将较为缓慢,但硕士学位的激增可能预示着所有学位层次都将出现这一发展趋势。5.在培养信息、技术和通信技术(ICT)毕业生方面,美国持续处于全球领先地位。西班牙、巴西和英国紧随美国之后,成为各层次毕业生最多的国家,而土耳其则是男女比例最均衡的国家。第八章:公众观点1.全球对人工智能产品和服务的态度持谨慎乐观的态度。在益普索(Ipsos)2022-2024 年持续追踪的 26 个国家中
67、,18 国的受访者对人工智能产品与服务“利大于弊”的认同比例呈现上升趋势。在全球范围内,认为人工智能产品和服务利大于弊的个人比例从2022 年的 52%上升到 2024 年的 55%。2.人工智能对日常生活影响的预期认知度持续攀升。在世界各地,三分之二的人现在认为,人工智能驱动的产品与服务将在未来 3至 5 年内显著改变日常生活这一比例较 2022 年上升 6 个百分点。除马来西亚、波兰和印度外,其余国家自 2022 年以来该认知度均有所提升,其中加拿大(增长 17%)与德国(增长 15%)涨幅最为显著。3.对人工智能公司伦理行为的怀疑正在增加,同时同时对人工智能公平性的信任正在下降。在全球范
68、围内,人们对人工智能公司保护个人数据的信心从 2023 年的 50%下降到 2024年的47%。同样,与相比,如今相信人工智能系统不偏不倚、不受歧视的人也越来越少。4.人工智能乐观程度的地区差异依然存在。2023 年人工智能指数首次指出,人工智能乐观程度的地区差异依然存在。在中国(83%)、印度尼西亚(80%)和泰国(77%)等国家,绝大多数人认为人工智能驱动的产品和服务利大于弊,而在加拿大(40%)、美国(39%)和荷兰(36%),只有少数人持这种观点。222025年人工智能指数报告报告核心要点第八章:公众观点(续)5.美国人自动驾驶汽车仍持不信任态度。根据美国汽车协会(American A
69、utomoblie Association,AAA)最新调查数据显示,61%的美国民众对自动驾驶汽车存在恐惧心理,仅有 13%的受访者表示信任该技术。尽管这一恐惧比例较 2023 年 68%的峰值有所下降,但仍高于 2021 年 54%的水平。6.美国地方政策制定者普遍支持对人工智能实施监管。2023 年,美国 73.7%的地方政策制定者(涵盖镇、市、县三级政府)支持对人工智能实施监管,较 2022 年的 55.7%显著提升。民主党人士的支持率(79.2%)明显高于共和党人士(55.5%),但两党支持率相较 2022 年均呈现显著增长。7.此前此前对人工智能持最强烈怀疑态度的国家中,对人工智能
70、的乐观态度呈现急剧上升趋势。在全球范围内,人们对人工智能产品和服务的乐观态度有所提高,其中以前最持怀疑态度的国家乐观态度增幅最大。2022 年,英国(38%)、德国(37%)、美国(35%)、加拿大(32%)和法国(31%)是最不倾向于认为人工智能利大于弊的国家。此后,这些国家对人工智能的乐观态度分别提升了 8%、10%、4%、8%和 10%。8.劳动者预期人工智能将重塑就业结构,但其对岗位被替代的担忧程度相对较低。在全球范围内,60%的受访者认为人工智能将在未来五年内改变个人的工作方式。然而,有一小部分受访者(36%)认为,人工智能将在未来五年内取代他们的工作。9.美国地方政策制定者在人工智
71、能政策优先事项上存在明显分歧。美国地方政府决策者虽普遍支持人工智能监管,但在具体政策优先事项上存在显著差异。支持率最高的政策包括更严格的数据隐私法规(80.4%)、失业人员再培训计划(76.2%)以及人工智能应用监管条例(72.5%)。然而,针对执法部门人脸识别禁令(34.2%)、工资下降补贴(32.9%)和全民基本收入(24.6%)等政策的支持率则显著降低。10.人工智能被视为提升效率的工具和娱乐体验的助推器,但其经济影响仍存疑虑。全球对人工智能影响的看法各不相同。55%的人认为人工智能将节省时间,51%的人预计它将提供更好的娱乐选择,但对其健康或经济效益有信心的人较少。只有 38%的人认为
72、人工智能将提升医疗健康水平,36%的人认为人工智能将改善国民经济,31%的人认为人工智能将对就业市场产生积极影响,37%的人认为人工智能将提升自己的工作效率。232025年人工智能指数报告第一章:研究与开发2025年人工智能指数报告目录第一章预览25第一章:研究与开发概述章节核心要点1.1 论文发表概述人工智能论文发表总量 按发表平台(Venue)分类 按国家/地区分类 按行业分类 按研究主题分类发表的百强论文 按国家/地区分类 按行业类型 按机构类型1.2 专利 概述 按国家/地区分类1.3 标志性人工智能模型 按国家/地区分类 按行业分类 按研发主体分类 模型发布 参数发展趋势 算力发展趋
73、势 重点:模型训练会面临数据枯竭吗?推理成本 训练成本1.4 硬件概览 重点:能源效率和环境影响1.5 人工智能会议参会规模1.6 开源人工智能软件开源人工智能软件项目星标68687175757777792627292929313236383939404142424346464749505256596465获取公共数据第一章:研究与开发概述本章探讨了人工智能研究与发展的最新趋势,首先系统分析人工智能论文发表、专利及标志性的人工智能系统,并基于国家和地区、研发机构与行业领域三维度对上述成果的开发方进行解析。本章同时涵盖了对人工智能模型训练成本、学术会议参与度及开源人工智能软件的分析。今年新增的内
74、容包括人工智能硬件生态演进图谱、人工智能训练能耗与环境影响评估及模型推理成本时序分析。2025年人工智能指数报告目录第一章预览262025年人工智能指数报告目录第一章预览272.中国在人工智能论文发表总量上领先,而美国在具有高影响力的研究方面占据优势。2023 年,中国在人工智能领域的论文发表量(23.2%)和引用量(22.6%)均位居全球首位。而在过去三年中,美国机构贡献了最多被引用次数排名前 100 的人工智能论文。3.人工智能论文发表总量持续增长,并在计算机科学领域占据日益重要的主导地位。从 2013 年到 2023 年,在计算机科学和其他科学学科领域发表的人工智能论文发表总数几乎增加了
75、两倍,从大约 102,000 篇增加到超过 242,000 篇。从比例上看,人工智能在计算机科学论文中所占的份额已从 2013 年的 21.6%上升到 2023 年的 41.8%。4.美国仍然是标志性人工智能模型的主要来源地。2024 年,美国机构开发了 40 个标志性人工智能模型,大大超过中国的 15 个和欧洲的 3 个。在过去十年,源自美国的标志性机器学习模型比任何其他国家都多。2024 年,美国机构共开发出 40 个前沿人工智能模型,显著超过中国的 15 个和欧洲地区的合计的 3 个。过去十年间,美国在前沿机器学习模型的研发数量上持续保持全球领先地位。5.人工智能模型正变得规模更大、算力
76、需求更高、能耗更强。最新研究表明,标志性人工智能模型的训练算力需求约每 5 个月翻一番,大语言模型训练数据集规模每 8 个月翻一番,而训练所需功耗每年递增。大规模的产业投资持续推动着模型规模扩大和性能提升。6.人工智能模型的使用成本持续下降。以语言模型性能评估常用基准MMLU 为例,达到 GPT-3.5 水平(64.8 分)的人工智能模型查询成本已从 2022 年 11 月的每百万词元 20 美元,降至 2024 年 10 月的仅每百万词元 0.07 美元(Gemini-1.5-Flash-8B 模型),18 个月内降幅超 280 倍。根据任务类型不同,大语言模型的推理价格年降幅已达 9 至
77、900 倍不等。第一章:研究与开发章节核心要点1.产业界产业界持续加大人工智能投入并主导标志性人工智能模型研发,而学术界则引领高影响力研究。产业界在标志性人工智能模型研发中的主导优势持续强化,这一趋势在既往两期人工智能指数报告中已有明确阐述。2024 年,近 90%的前沿模型源自产业界(较2023 年的 60%提升 30 个百分点)。学术界在过去三年中始终是高被引(前 100 名)论文的首要机构贡献者。2025年人工智能指数报告目录第一章预览287.人工智能专利申请持续上升。从 2010 年到 2023 年,人工智能专利数量稳步大幅增长,从 3833 项激增到 122511 项。仅在去年,人工
78、智能专利数量就增长了 29.6%。截至 2023 年,中国在人工智能专利总数上遥遥领先,占所有授权的 69.7%,而按人均计算,韩国和卢森堡则是人工智能专利的主要生产国。8.人工智能硬件变得更快、更便宜、更节能。最新研究表明,以 16 位浮点运算能力衡量的机器学习硬件性能正以每年 43%的速度增长,每 1.9 年实现翻倍。其性价比显著提升成本每年下降 30%,而能效则以每年 40%的幅度持续改善。9.人工智能训练产生的碳排放量正在稳步上升。早期训练的人工智能模型,如 AlexNet 网络(2012 年),碳排放量不大,仅为 0.01 吨。最新人工智能模型的训练碳排放量显著增加:2020 年 G
79、PT-3 为 588 吨,2023 年 GPT-4 达 5,184 吨,而 2024 年 Llama 3.1 405B 更是高达 8,930 吨。作为对比,美国人年均碳排放量仅为 18 吨。章节核心要点(续)第一章:研究与开发1、OpenAlex 是一个完全开放的学术元数据目录,包括科学论文、作者、机构等。人工智能指数使用 OpenAlex 作为书目数据库,并使用最新版本的 CSO 分类器对人工智能相关研究进行自动分类。前几年,该指数依赖于第三方提供商,其基础数据源和分类方法各不相同。因此,今年报告的研究结果与以往报告中的结果略有不同。此外,人工智能指数仅将分类器应用于 OpenAlex 归类
80、计算机科学大领域的论文。这种方法可能导致人工智能相关论文的数量不足,因为它排除了社会科学等领域的研究,这些领域采用了人工智能方法,但不属于计算机科学指定的分类范围。2、CSO 分类器(v3.3)是一个自动文本分类系统,旨在使用包含 15,000 个主题和 166,000 种关系的综合本体对计算机科学领域的研究论文进行分类,包括 GenAI、大语言模型和提示工程等新兴领域。它通过三个模块处理元数据(如标题和摘要):语法模块用于准确匹配主题,语义模块利用词嵌入推断相关主题,后处理模块通过过滤异常值和添加相关的更高层次领域来完善结果。2025年人工智能指数报告概述研究成果发布统计.下一节报告了人工智
81、能英文论文发表总量的趋势。人工智能论文发表总量图 1.1.1 显示了全球人工智能研究成果发布的总量统计。这些研究成果均来自 OpenAlex 数据库中标注为“计算机科学(CS)”类别,并经人工智能指数团队认定为与人工智能相关的研究。2 2第一章:研究与开发1.1 论文发表1.1 论文发表下图展示了 2010 至 2023 年全球人工智能英文论文发表的梳理,按机构类型、成果类别及地域分布三维度分类统计。在今年报告中,人工智能指数新增一节内容,分析 100 篇被引用次数最多的人工智能论文发表的趋势,可为特别具有影响力的研究提供洞见。今年,人工智能指数利用 OpenAlex 数据库分析了人工智能研究
82、成果的趋势。因此,今年报告中的数字与往年略有不同。1 1 鉴于出版物元数据的收集存在显著滞后,在某些情况下,需要等到一年中的中期才能完全收集到上一年的发表物,因此,在今年的报告中,人工智能指数团队决定只考察到2023 年的出版趋势。2013-2023 年全球范围内在 CS 领域人工智能论文发表数量资料来源:2025 年人工智能指数|图表:2025 年人工智能指数报告242.7420132014201520162017201820192020202120222023050100150200250图 1.1.1CS 领域的人工智能论文发表数量(以千为单位)目录第一章预览29201320142015
83、201620172018201920202021202220230%5%10%15%20%25%30%35%40%45%41.76%2025年人工智能指数报告第一章:研究与开发1.1 论文发表2013 年至 2023 年间,人工智能相关论文发表的总数翻了一番多,从 2013 年的约 10.2 万篇增至 2023 年的超过 24.2万篇。过去一年间的增长率达 19.7%,这一增幅具有重要意义。计算机科学的众多领域从硬件与软件工程到人机交互如今均对人工智能的发展都有所贡献。因此,观测到的增长现象反映出该人工智能更广泛且日益增强的关注度。20132023 年全球范围在 CS 领域人工智能论文发表的统
84、计(占总数百分比)资料来源:2025 年人工智能指数|图表:2025 年人工智能指数报告图 1.1.2CS 领域的人工智能论文发表占比目录第一章预览30201320142015201620172018201920202021202220230204060801000.96,博士学术论文1.64,其他10.73,图书44.54,存储库83.30,会议论文101.57,期刊论文2025年人工智能指数报告第一章:研究与开发1.1 论文发表图 1.1.2 显示了 OpenAlex 数据库中被归类为人工智能相关的计算机科学论文发表的发布占比。图 1.1.2 采用了与图 1.1.1相同的数据,但以比例形式
85、显示。人工智能论文发表的比例大幅增长,从 2013 年到 2023 年几乎翻了一番。按发表平台(Venue)分类人工智能研究人员在多种学术平台发表研究成果。图 1.1.3按平台类型展示了人工智能领域论文总量的分布情况。2023 年,期刊论文占人工智能论文发表的最大份额(41.8%),其次是会议论文发表(34.3%)。尽管自 2013 年以来,期刊和会议论文发表总量持续增长,但其在人工智能领域的占比却呈稳步下降趋势期刊论文占比从 2013 年的 52.6%降至 2023 年的41.8%,会议论文发表占比同期从 36.4%下降至 34.3%。与此相反,类似 arXiv 存储库的人工智能论文发表占比
86、显著提升。20132023 年按平台分类按平台分类CS 领域人工智能论文发表的统计(占总数百分比)资料来源:2025 年人工智能指数|图表:2025 年人工智能指数报告图 1.1.3CS 领域的人工智能论文发表统计(占总数的百分比)目录第一章预览312025年人工智能指数报告第一章:研究与开发1.1 论文发表按国家/地区分类图 1.1.4 展示了不同地区人工智能论文发表情况随时间的变化。3 3 在 2023 年,东亚和太平洋地区在人工智能研究产出方面领先,占所有人工智能论文发表的 34.5%,其次是欧洲和中亚(18.2%)以及北美(10.3%)摸索。4 4图 1.1.4 分析了人工智能领域论文
87、发表的地域分布情况,揭示了研究成果数量最多的地区;而图 1.1.5 则聚焦于引用情况,统计了各区域研究成果在总引用量中的占比。截至 2023年,东亚与太平洋地区的人工智能论文发表引用量占比最高,达到 37.1%(图 1.1.5)。回溯至 2017 年,该地区与北美地区的引用份额基本持平;此后,北美和欧洲地区的占比呈下降趋势,而东亚与太平洋地区的引用份额则显著攀升。0132023 年按地区划分在 CS 领域人工智能论文发表的统计(占总数百分比)资料来源:2025 年人工智能指数|图表:2025 年人工智能指数报告图 1.1.4CS 领域的人工智能论文发表统计(占总数百分比)目录第一章预览3220
88、1320142015201620172018201920202021202220230%5%10%15%20%25%30%35%34.46%,东亚和太平洋地区19.37%,未知18.15%,欧洲和中亚地区10.31%,北美地区9.98%,南亚地区5.18%,中东和北非地区1.66%,拉丁美洲和加勒比地区0.89%,撒哈拉以南非洲地区3、本章中的地区是根据世界银行的分析分组分类的。人工智能指数使用作者身份数据中的 国家 字段来确定作者所属的国家。这个字段列出了根据机构隶属关系从OpenAlex中检索到的作者隶属的所有国家。这些隶属关系可以在论文中明确说明,也可以从作者最近发表的论文中推断。在按国
89、家统计研究成果时,人工智能指数会对研究成果所关联的每个国家分配一个计数。例如,如果一篇论文有三位作者,其中两位隶属于美国的机构,一位隶属于中国的机构,那么这篇论文在美国和中国各被计算一次。4、当作者的机构归属缺失或不完整时,论文发表的国家归属可能为 未知。造成这一问题的有很多,包括机构名称不规范或遗漏、平台功能缺陷、作者群体实践、隶属关系标签不规范、文档类型不一致或作者发表记录有限等。本文讨论的是与OpenAlex有关的问题;不过,遗漏机构的问题也与其他书目数据库有关。201320142015201620172018201920202021202220230%5%10%15%20%25%30%
90、35%40%37.07%,东亚和太平洋地区21.88%,欧洲和中非地区15.59%,北美地区7.97%,中东和北非地区7.69%,南亚地区7.55%,未知1.35%,拉丁美洲和加勒比海地区0.89%,撒哈拉沙漠以南地区目录第一章预览332025年人工智能指数报告20132023 年按地区划分在 CS 领域人工智能领域论文发表的引用量(占总引用量百分比)资料来源:2025 年人工智能指数|图表:2025 年人工智能指数报告图 1.1.5CS 领域的人工智能论文发表统计(占总数百分比)第一章:研究与开发1.1 论文发表2025年人工智能指数报告2023 年,中国在人工智能论文发表数量上居全球首位,
91、占比达 23.2%,而欧洲和印度的占比分别为 15.2%和 9.2%(见图 1.1.6)。5 5 自 2016 年以来,中国的份额持续稳步增长,而欧洲的占比则呈现下降趋势。美国在人工智能领域的论文发表比例在 2021 年前保持相对稳定,但此后略有下降。20132023 年在 CS 领域人工智能论文发表的统计(占总数百分比)资料来源:2025 年人工智能指数|图表:2025 年人工智能指数报告图 1.1.6 6 6CS 领域的人工智能论文发表统计(占总数百分比)201320142015201620172018201920202021202220230%5%10%15%20%25%23.20%,中
92、国20.65%,未知15.22%,欧洲9.22%,印度9.20%,美国22.51%,全球其他地区5、在本报告及其他章节中,人工智能指数对“欧洲”的定义遵循联合国统计司所界定的国家列表。6、保持简明扼要,人工智能指数对部分国家的结果进行了可视化。不过,所有国家的完整结果都将在AI Indexs Global Vibrancy Tool上公布,该工具计划于2025年夏季更新。如需立即获取特定国家的研发数据,请联系人工智能指数团队。目录第一章预览34第一章:研究与开发1.1 论文发表2025年人工智能指数报告2023 年,中国人工智能论文的引用量占比达 22.6%,位居全球首位,欧洲和美国分别以 2
93、0.9%和 13.0%的占比紧随其后(图1.1.7)。与论文发表总量趋势一致,2010 年代末成为关键转折点中国在这一时期超越欧美,成为人工智能领域被引用文献的首要来源地。第一章:研究与开发1.1 论文发表20132023 年按选定地理区域分类在 CS 领域人工智能论文发表的引用量(占总引用量百分比)资料来源:2025 年人工智能指数|图表:2025 年人工智能指数报告图 1.1.7CS 领域的人工智能领域论文引用量(占总引用量百分比)201320142015201620172018201920202021202220230%5%10%15%20%25%30%35%29.83%,全球其他地区2
94、2.60%,中国20.90%,欧洲13.03%,美国7.54%,未知6.10%,印度目录第一章预览352025年人工智能指数报告按行业分类学术机构仍是全球范围内人工智能论文发表的主要来源(图 1.1.8)。2013 年,学术机构贡献了 85.9%的人工智能论文;到 2023 年,这一比例仍保持在 84.9%的高位。2023 年,产业界贡献了 7.1%的人工智能论文,政府机构和非营利组织的占比分别为 4.9%和 1.7%。20132023 年按行业分类在 CS 领域人工智能发表物的统计资料来源:2025 年人工智能指数|图表:2025 年人工智能指数报告第一章:研究与开发1.1 论文发表图 1.
95、1.8 7 7CS领域人工智能论文发表统计(占总数的百分比)201320142015201620172018201920202021202220230%10%20%30%40%50%60%70%80%90%84.91%,学术界7.14%,产业界4.90%,政府1.70%,非营利组织1.35%,其他7、图 1.1.8 和图 1.1.9 未标注隶属机构的论文未纳入最终可视化统计。目录第一章预览362025年人工智能指数报告人工智能论文发表的行业来源在不同地区呈现显著差异(图 1.1.9)。美国产业界贡献的人工智能论文占比达 16.5%,明显高于中国的 8.0%。在主要地区中,中国教育机构产出的人工
96、智能论文占比最高,达到 84.5%。2023 年按行业和选定地理区域分类在 CS 领域人工智能论文发表的统计(占总量的百分比)资料来源:2025 年人工智能指数|图表:2025 年人工智能指数报告图 1.1.9第一章:研究与开发1.1 论文发表人工智能论文发表统计(占总量的百分比)75.61%16.49%4.02%3.88%79.49%9.62%6.79%4.09%84.45%8.02%6.96%0.58%0%10%20%30%40%50%60%70%80%90%学术界产业界非营利组织政府美国欧洲中国目录第一章预览372025年人工智能指数报告按研究主题分类机器学习是 2023 年人工智能领域
97、最热门的研究主题,占总论文数量的 75.7%,其次是计算机视觉(47.2%)、模式识别(25.9%)和自然语言处理(17.1%)(图 1.1.10)。过去一年中,关于生成式人工智能的论文数量出现了显著增长。20132023 年按精选核心主题分类人工智能论文发表的统计资料来源:2025 年人工智能指数|图表:2025 年人工智能指数报告第一章:研究与开发1.1 论文发表8、人工智能指数使用自己的主题分类器对论文进行分类。一份论文有可能被赋予多个主题标签。图 1.1.10 8 8人工智能论文数量(以千为单位)201320142015201620172018201920202021202220230
98、50100150 183.78,机器学习 114.61,计算机视觉62.90,模式识别41.40,自然语言处理21.82,基于知识的系统17.34,进化计算13.07,生成式人工智能12.00,逻辑与推理11.28,多智能体系统5.25,机器人目录第一章预览382025年人工智能指数报告发表的百强论文虽然追踪人工智能论文总量能提供一个对人工智能研究活动的宏观视角,但聚焦于被引用次数最多的论文则能揭示该领域最具影响力的研究成果。这项分析揭示了一些最具开创性和影响力的人工智能研究正在哪里兴起。今年,人工智能指数通过 OpenAlex 的引文数据,确定了 2021 年、2022 年和2023 年被引
99、用次数最多的 100 篇人工智能论文。92023 年被引用次数最多的人工智能论文包括 OpenAI 的 GPT-4 技术报告、Meta 的 Llama 2 技术报告和谷歌的 PaLM-E 的技术报告。值得注意的是,由于引用的滞后性,今年报告中被引用次数最多的论文在今后的版本中可能会有所变化。按国家/地区分类图 1.1.11 显示了各年被引用次数最多的 100 篇人工智能论文的地理分布。从 2021 年到 2023 年,美国一直是被引用最多的国家,2021 年为 64 篇,2022 年为 59 篇,2023 年为 50 篇。1010 自2021 年以来美国在顶级人工智能论文中所占的比例逐渐下降。
100、20212023 年按选定地理区域划分的百强高被引论文统计资料来源:2025 年人工智能指数|图表:2025 年人工智能指数报告第一章:研究与开发1.1 论文发表9、完整研究方法指南及百强论文名录详见附录部分。10、一篇出版物可以有多个来自不同国家或组织的作者。例如,如果一篇论文包括来自多个国家的作者,则每个国家只计一次。因此,本部分数字的总和超过 100。图 1.1.115034776654445934764433216433108774311024681012 14 1618 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56
101、58 60 62 64 66202320222021美国中国德国香港加拿大韩国英国阿拉伯联合酋长国以色列新加坡百强高被引论文数量目录第一章预览392025年人工智能指数报告按行业分类学术界持续产出最多被引的人工智能论文,2023年为42篇,2022年为27篇,2021年为34篇(图1.1.12)。值得注意的是,产业界贡献出现了显著下降,百强论文的数量从2021年的17篇和2022年的19篇骤降至2023年的仅7篇。随着人工智能研究竞争日益激烈,许多行业人工智能实验室降低发表论文频率或减少披露研究细节。第一章:研究与开发1.1 论文发表11、混合 名称包括所有非产业界和学术界的跨部门合作(如产业
102、界和政府、学术界和非营利组织)。有些机构缺少 2021 年的数据,因为它们当年没有论文入选前 100 名。由于论文的多个作者可能来自不同机构,因此图 1.1.12 中的机构标签总可能超过 100 个。另外,由于有两篇论文的作者所属部门不明,因此图 1.1.12 中的论文总数为 98 篇。目录第一章预览4020212023 年按选定行业划分的百强高被引论文的统计资料来源:2025 年人工智能指数|图表:2025 年人工智能指数报告图 1.1.12 11百强高被引论文数量4272524227193517341731171051015202530354045202320222021学术界产业界产业界
103、和学术界混合其他行业2025年人工智能指数报告按机构类型图 1.1.13 展示了 2021 至 2023 年间全球人工智能领域高被引百强论文来源机构分布情况。部分机构在图表中可能出现空白柱,这表明该机构在某年未发表百强论文。此外,图 1.1.13仅列出了排名前 10 的机构,尽管许多其他机构也做出了重要贡献。谷歌每年均位居榜首,但在 2023 年与清华大学并列第一,两者均有 8 篇论文入选百强。2023 年,卡内基梅隆大学是排名最高的美国学术机构。第一章:研究与开发1.1 论文发表目录第一章预览4120212023 年按机构类型划分的百强高被引论文的统计资料来源:2025 年人工智能指数|图表
104、:2025 年人工智能指数报告图 1.1.13百强高被引论文数量88665554442010994332221510752210246810121416182022202320222021谷歌清华大学卡耐基梅隆大学微软北京人工智能学院香港科技大学实验室上海人工智能中国科学院Meta英伟达机构类型2025年人工智能指数报告第一章:研究与开发1.2 专利目录第一章预览4220102023 年全球人工智能专利授权数量资料来源:2025 年人工智能指数|图表:2025 年人工智能指数报告图 1.2.1人工智能专利授权数量(以千为单位)1.2 专利概述图 1.2.1 显示了 2010 年至 2023 年
105、全球人工智能专利的增长情况。在过去十几年中,人工智能专利数量稳步大幅增长,从 2010 年的 3833 项增至 2023年的 122511 项。去年,人工智能专利总量增长了 29.6%。本节通过分析全球人工智能专利的时序演变趋势,揭示人工智能领域技术创新、研究进展与产业发展的关键动态。此外,分析人工智能专利可以揭示这些技术进步如何在全球范围内分布。与论文发表数据类似,人工智能专利数据的可获得性也存在明显的延迟,2023 年是可获得数据的最近年份。本节中的数据来自欧洲专利局(EPO)提供的综合数据库 PATSTAT Global 中的专利级目录记录。12122.5112、有关本节专利分析方法的更
106、多详情,请参阅附录。201020112012201320142015201620172018201920202021202220230204060801001202025年人工智能指数报告第一章:研究与开发1.2 专利目录第一章预览4320102023 年按地区划分的 AI 专利授权量(占全球总量的百分比)资料来源:2025 年人工智能指数|图表:2025 年人工智能指数报告按国家/地区分类图 1.2.2 展示了授予的人工智能专利的区域分布,即全球不同地区提交的专利数量。截至 2023 年,截至 2023 年,全球获授权的人工智能专利中,绝大多数(82.4%)来自东亚和太平洋地区,北美地区以
107、14.2%的占比位列第二。自 2010 年以来,东亚和太平洋地区与北美在人工智能专利授权方面的差距不断扩大。图 1.2.2 1313、不同国家和地区的专利标准和法律各不相同,因此在解释这些图表:时应谨慎。更详细的国家级专利信息将在 AI Indexs Global Vibrancy Tool 的后续版本中发布。获得人工智能专利(占全球总数百分比)201020112012201320142015201620172018201920202021202220230%10%20%30%40%50%60%70%80%90%82.40%,东亚和太平洋地区14.23%,北美地区2.77%,欧洲和中亚地区 0
108、.37%,南亚地区0.15%,全球其他地区0.04%,拉丁美洲和加勒比海地区0.02%,中东和北非地区0.02%,撒哈拉沙漠以南地区2025年人工智能指数报告第一章:研究与开发1.2 专利目录第一章预览4420102023 年按地区划分的人工智能专利授权量(占全球总量的百分比)资料来源:2025 年人工智能指数|图表:2025 年人工智能指数报告按地理区域细分,全球获批的人工智能专利中,绝大多数来自中国(69.7%)和美国(14.2%)(图 1.2.3)。来自美国的人工智能专利占比已从 2015 年的峰值(42.8%)有所下降。图 1.2.3 和图 1.2.4 记录了哪些国家在人均人工智能专利
109、方面处于领先地位。2023 年,每 10 万居民中人工智能专利授权最多的国家是韩国(17.3 项),其次是卢森堡(15.3 项)和中国(6.1 项)(图 1.2.3)。图 1.2.5 显示了 2013 年至 2023 年人均人工智能专利授权量的变化。在此期间,卢森堡、中国和瑞典的人均人工智能专利增幅最大。图 1.2.3获得人工智能专利(占全球总数百分比)201020112012201320142015201620172018201920202021202220230%10%20%30%40%50%60%70%69.70%,中国14.16%,美国13.00%,全球其他地区2.77%,欧洲0.37
110、%,印度2025年人工智能指数报告第一章:研究与开发1.2 专利目录第一章预览452023 年按国家分类每 10 万居民授权的人工智能专利数量资料来源:2025 年人工智能指数|图表:2025 年人工智能指数报告图 1.2.42013 年与 2023 年按国家划分的每 10 万居民授予的人工智能专利数量的百分比变化对比资料来源:2025 年人工智能指数|图表:2025 年人工智能指数报告图 1.2.5授予的人工智能专利(每 10 万居民)0.270.380.400.430.470.520.740.970.981.224.585.206.0815.3117.2701234567891011121
111、31415161718韩国卢森堡中国美国日本德国新加坡芬兰瑞典英国丹麦法国荷兰澳大利亚希腊授予的人工智能专利数量的百分比变化(每 10 万居民)230%240%365%463%580%730%1,028%1,043%1,097%1,653%2,546%2,851%3,453%6,317%8,216%0%1,000%2,000%3,000%4,000%5,000%6,000%7,000%8,000%卢森堡中国瑞典希腊新加坡芬兰德国韩国荷兰英国美国法国日本澳大利亚丹麦2025年人工智能指数报告第一章:研究与开发1.3 标志性人工智能模型目录第一章预览462024 年按选定地理区域划分的标志性人工智
112、能模型数量资料来源:Epoch AI,2025|图表:2025 年人工智能指数报告14、人工智能系统(AI system)是指基于人工智能的计算机程序或产品,如 ChatGPT。人工智能模型(AI Model)包括一组在训练过程中学习到的参数值,例如 GPT-4。15、Epoch AI 数据库会不断添加新的和历史性的模型,因此今年人工智能指数中包含的模型逐年总数可能与去年报告中公布的数据不完全一致。数据统计截取于 2025 年 3 月 17 日。16、如果介绍机器学习模型的论文中至少有一位作者与某个国家的机构有关联,那么该模型就与该国家有关。如果模型的作者来自多个国家,则可能出现重复计算的情况
113、。17、该图表:展示了所选择的部分国家/地区的模型发布情况。有关各国模型发布情况的更全面数据,将于即将发布的 AI Indexs Global Vibrancy Tool 中提供。2003-2024 年按选定地理区域划分的标志性人工智能模型数量资料来源:Epoch AI,2025|图表:2025 年人工智能指数报告图 1.3.2图 1.3.1171.3 标志性人工智能模型按国家/地区分类为了展示人工智能领域不断演变的地缘政治格局,人工智能指数展示了标志性模型所属的国家。图 1.3.1 展示了归因于研究人员所属机构所在地的标志性人工智能模型总数。16 2024 年,美国以 40 个标志性人工智能
114、模型遥遥领先,中国以 15 个紧随其后,法国则有 3 个。2024 年全球主要经济体包括美国、中国和欧盟均报告说,2024 年发布的标志性模型少于上一年(图 1.3.2)。自 2003 年以来,美国开发的模型数量超过了英国、中国和加拿大等其他主要国家(图 1.3.3)。模型发布总量下降确切原因难以确定,但这可能源于多种因素的综合作用:训练数据规模的不断扩大、人工智能技术的日益复杂化,以及开发新建模方法所面临的挑战日益严峻。Epoch AI 当前收录的标志性模型可能遗漏了部分受关注度较低国家的发布成果。人工智能指数与 Epoch 合作致力于提高人工智能模型生态系统中的全球代表性。如果读者认为缺少
115、了某些国家的模型,欢迎联系人工智能指数团队,我们将努力解决这个问题。本节探讨标志性人工智能模型。人工智能指数数据提供商 Epoch AI 使用 标志性机器学习模型(notable machine learning)一词来指代人工智能/机器学习生态系统中特别有影响力的模型。Epoch 维护着一个涵盖 1950 年代以来发布的 900 个人工智能模型的数据库,其收录标准包括:技术突破性、历史里程碑意义或高被引率等核心指标。由于 Epoch 对数据进行了人工整理,因此一些被部分人视为标志性的模型可能未被收录。通过分析这些模型,我们可以全面了解机器学习领域近年来和过去几十年的发展变化。数据集中可能缺少
116、某些模型,但数据集可以揭示相对趋势。标志性人工智能模型包括 GPT-4o、Claude 3.5 和 AlphaGeometry。在本节中,人工智能指数从不同角度探讨了标志模型的发展趋势,包括起源国、起源组织、模型发布梯度、参数数量和计算使用情况。最后,分别对机器学习的训练成本以及推理成本进行了探讨与分析。200320062009201220152018202120240102030405060703,欧洲15,中国40,美国标志性人工智能模型数量1111315400510152025303540美国中国法国加拿大以色列阿联酋韩国2025年人工智能指数报告第一章:研究与开发1.3 标志性人工智能
117、模型按行业分类图 1.3.4 展示了按模型发布年份划分的标志性人工智能在各领域的来源分布。Epoch 根据来源对模型进行了分类:产业界包括谷歌、Meta 和 OpenAI 等公司;学术界包括清华大学、麻省理工学院和牛津大学等大学;政府指国家附属研究机构,如 英 国 的 Alan Turing Institute for AI 和 阿 布 扎 比 的Technology Innovation Institute;研究集体包括非营利性人工 智 能 研 究 组 织 Allen Insititute for AI 和 Fraunhofer Institute。2014 年之前,学术界在发布机器学习模型
118、方面一直处于领先地位。自那以后,工业界开始领跑。根据 Epoch AI 的数据,在 2024 年,工业界将产生 55 个标志性人工智能模型。18随着时间的推移,产学研合作推动的模型数量持续增长。过去十年间,来自产业界的知名人工智能模型占比稳步上升,至 2024 年已达到 90.2%。2003-2024 年按地理区域划分的标志性人工智能模型数量(总量)资料来源:Epoch AI,2025|图表:2025 年人工智能指数报告图 1.3.3目录第一章预览47110112021606110010156018、在解释这一数字时应谨慎。学术模型数量为零并不意味着 2023 年学术机构没有产生任何标志性模型
119、,而是意味着 Epoch AI 没有发现任何标志性模型。此外,学术研究成果往往需要更长时间才能获得认可,即便是那些引入重要架构的高被引论文,也可能需要数年时间才能产生广泛影响。2025年人工智能指数报告第一章:研究与开发1.3 标志性人工智能模型目录第一章预览4820032024 年按行业划分的标志性人工智能模型数量资料来源:Epoch AI,2025|图表:2025 年人工智能指数报告20032024 年按行业划分的标志性人工智能模型(占总数百分比)资料来源:Epoch AI,2025|图表:2025 年人工智能指数报告图 1.3.4标志性人工智能模型的数量图 1.3.5标志性的人工智能模型
120、(占总数的百分比)20032004200520062007200820092010201120122013201420152016201720182019202020212022202320240%20%40%60%80%100%8.20%,产业界-学术界协作1.64%,产业界-政府协作0.00%,政府0.00%,产业界-研究共同体协作 0.00%,研究共同体0.00%,学术界-研究共同体协作0.00%,学术界政府协作0.00%,学术界90.16%,产业界2003200420052006200720082009201020112012201320142015201620172018201920
121、20202120222023202401020304050605,产业界-学术界协作1,产业界-政府协作0,政府0,产业界-研究共同体协作0,研究共同体0,学术界-研究共同体协作0,学术界政府协作0,学术界55,产业界2025年人工智能指数报告目录第一章预览49次是 Meta(82个)和微软(39个)。在学术机构中,卡内基梅隆大学(25个)、斯坦福大学(25个)和清华大学(22个)自2014 年以来在标志性模型研发方面成果最多。19、在组织统计数据中,DeepMind 发布的研究被归入谷歌。第一章:研究与开发1.3 标志性人工智能模型按研发主体分类图 1.3.6 与图 1.3.7 分别呈现了
122、2024 年度及过去十年间,机器学习领域标志性模型研发的主导机构分布情况。2024 年,贡献最多的是谷歌(7 个)、OpenAI(7 个模型)和阿里巴巴(4个)。自 2014 年以来,谷歌以 187 个标志性模型遥遥领先,其2024 年按组织划分的标志性人工智能模型数量资料来源:Epoch AI,2025|图表:2025 年人工智能指数报告20142024 年按组织划分的标志性人工智能模型数量(总计)资料来源:Epoch AI,2025|图表:2025 年人工智能指数报告图 1.3.619图 1.3.7标志性人工智能模型数量标志性人工智能模型数量187823936252522221716151
123、51514120102030405060708090100110120130140150160170180190 谷歌Meta微软OpenAI卡耐基梅隆大学斯坦福大学清华大学加州大学伯克利分校英伟达牛津大学麻省理工学院Salesforce华盛顿大学阿里巴巴Allen Institute for AI学术界产业界研究共同体77644433222222201234567谷歌OpenAI阿里巴巴苹果Meta英伟达AnthropicMistral AIByteDanceDeepSeek麻省理工学院腾讯 加州大学伯克利分校WriterZhipu AI学术界产业界2025年人工智能指数报告第一章:研究与开
124、发1.3 标志性人工智能模型模型发布机器学习模型按照开放程度和使用权限可分为多种发布类型。API 访问模型,如 OpenAI 的 o1,允许用户通过查询与模型进行交互,而无需直接访问其底层权重。限制条件下的开源权重模型,如 DeepSeek 的 V3,提供对其权重的访问,但施加了一些限制,如禁止商业使用或二次分发。托管访问非 API 类模型,如 Gemini 2.0 Pro,指仅通过平台界面可用,不提供程序化调用接口的模型。无限制开源权重模型,如 AlphaGeometry,是完全开放的,允许自由使用、修改和再分发。非商业开源权重模型,如 Mistral Large 2,共享权重,但仅限于研究
125、或非商业目的使用。最后,未发布模型,如 ESM3 98B,依然专有,只有其开发人员或选定的合作伙伴才能访问。未知指的是访问类型不明确或未公开的型号。图 1.3.8 展示了各类模型发布时所采用的不同访问权限类型。20 2024 年,API 访问是最常见的发布类型,61 个模型中有 20 个以这种方式提供,其次是限制使用的开源权重和未发布模型。图 1.3.9 从比例维度呈现了机器学习模型访问权限类型的历时演变情况。2024 年,大多数人工智能模型是通过 API 访问发布的(32.8%),这一比例自 2020 年以来稳步上升。目录第一章预览5020、托管访问是指使用第三方远程提供的计算资源或服务(如
126、软件、硬件或存储),而不是亲自拥有或管理这些资源或服务。托管访问不是在本地运行软件或基础设施,而是通过云或其他远程服务(通常是互联网)访问这些资源。例如,通过 AWS、谷歌 Cloud或微软Azure等平台使用GPU,而不是在自己的硬件上运行GPU,就属于托管访问。21、Epoch数据库中的所有模型并非都按访问类型分类,因此图1.3.8至1.3.10中的总数可能与本章其他地方报告的总数不完全对齐。20142024 年按访问类型划分的标志性人工智能模型数量资料来源:Epoch AI,2025|图表:2025 年人工智能指数报告图 1.3.8 21 标志性人工智能模型数量1220910121611
127、10272732202010192336211922141030193638171326303228505851725475861056120142015201620172018201920202021202220232024020406080100120 API访问限制条件下的开源权重未知托管访问非API无限制开源权重非商业开源权重未公开2025年人工智能指数报告第一章:研究与开发1.3 标志性人工智能模型在传统的开源软件发布中,所有组件,包括培训代码,通常都会公开。然而,人工智能技术却往往并非如此,即使发布模型权重的开发人员也可能保留培训代码。如图 1.3.10 所示,标志性人工智能模型可
128、按代码开放程度进行分类。2024 年,其中60.7%的模型在发布时未同步公开训练代码。目录第一章预览5120142024 年按访问类型划分标志性人工智能模型(占总数百分比)资料来源:Epoch AI,2025|图表:2025 年人工智能指数报告20142024 年按训练代码访问类型划分的标志性人工智能模型数量资料来源:Epoch AI,2025|图表:2025 年人工智能指数报告图 1.3.9图 1.3.10标志性人工智能模型(占总数的百分比)标志性人工智能模型数量201420152016201720182019202020212022202320240%10%20%30%40%50%60%7
129、0%80%90%100%18.03%,限制条件下的开源权重 16.39%,未公开11.48%,无限制开源权重 9.84%,非商业开源权重 8.20%,托管访问非API3.28%,未知32.79%,API访问16332229161311911152624292837373021374019143848183228505851725475861056120142015201620172018201920202021202220232024020406080100120 开源受限开源非商业开源未公开未知2025年人工智能指数报告第一章:研究与开发1.3 标志性人工智能模型目录第一章预览52参数发展趋
130、势机器学习模型中的参数是在训练过程中学习到的数值,决定了模型如何解释输入数据和进行预测。参数较多的模型需要更多的数据来训练,但它们可以承担更多的任务,通常优于参数较少的模型。图 1.3.11 展示了 Epoch 数据库中机器学习模型的参数数量,并按模型来源的行业进行了分类。图 1.3.12 展示了相同的数据,但选取了较少的标志性模型。自 2010 年代初以来,模型参数量呈现急剧增长态势,这反映了以下关键因素:架构复杂度持续提升、训练数据日益丰富、硬件设施不断改进,以及大模型效能已获验证。高参数量模型在产业界表现尤为突出,这表现出企业机构具备雄厚资金实力,足以支撑海量数据训练所需的巨额计算成本。
131、下列部分图表:采用对数刻度,以准确反映近年来人工智能模型参数量及计算需求的指数级增长态势。20032024 年按行业划分的标志性人工智能模型参数数量资料来源:Epoch AI,2025|图表:2025 年人工智能指数报告图 1.3.11 标志性人工智能模型数量发布日期2003 2004 2005 2006 2007 2008 2009 2010201120122013201420152016201720182019 2020 2021 2022 2023 202410010K1M100M10B1T学术界学术界政府产业界产业界-研究共同体协作产业界-学术界政府研究共同体2025年人工智能指数报告
132、第一章:研究与开发1.3 标志性人工智能模型目录第一章预览5320122024 年按行业划分的标志性人工智能模型参数数量资料来源:Epoch AI,2025|图表:2025 年人工智能指数报告图 1.3.12参数数量(对数刻度)发布日期AlexNetDeepSeek-V3Qwen2.5-72BMistral Large2 Llama 2-70BPaLM(540B)Megatron-Turing NLG 530BGPT-3 175B(davinci)BERT-LargeTransformerERNIE3.0 Titan RoBERTa Large2012201320142015201620172
133、018201920202021202220232024100M1B10B100B1T产业界学术界产业界学术界2025年人工智能指数报告第一章:研究与开发1.3 标志性人工智能模型目录第一章预览54随着模型参数数量的增加,用于训练人工智能系统的数据量也在增加。图 1.3.13 展示了用于训练标志性机器学习模型的数据集规模的增长。2017 年发布并被广泛认为引发了大语言模型革命的 Transformer 模型,是在大约 20 亿个词元的基础上训练出来的。到 2020 年 GPT-3 175B最初的 ChatGPT的基础模型之一估计是在 3740 亿个词元上训练出来的。相比之下,Meta 的旗舰大语
134、言模型,即 2024 年夏天发布的Llama 3.3,则是在大约 15 万亿个词元上训练出来的。根据Epoch AI 的数据,大语言模型训练数据集的规模大约每八个月翻一番。2010-2024 年标志性人工智能模型人工智能模型训练数据集规模资料来源:Epoch AI,2025|图表:2025 年人工智能指数报告训练数据集规模(词元-对数刻度)20102011201220132014201520162017201820192020202120222023202410K1M100M10B1T100TLlama 3.1-405BTransformerGPT-3 175B(davinci)DeepSee
135、k-V3PaLM(540B)GPT-4AlexNetQwen2.5-72B图 1.3.13发布日期2025年人工智能指数报告第一章:研究与开发1.3 标志性人工智能模型目录第一章预览55在越来越大的数据集上训练模型导致训练时间显著延长(图 1.3.14)。一些最先进的模型,如 Llama 3.1-405B,需要大约 90 天的时间来训练这在当今标准下是一个典型的训练周期。谷歌于 2023 年底发布的 Gemini 1.0 Ultra 耗时约 100天。这与 AlexNet 形成了鲜明对比,AlexNet 是首批利用GPU 提高性能的模型之一,在 2012 年仅用五到六天就完成了训练。值得注意的
136、是,AlexNet 的训练硬件远不及后者先进。20102024 年标志性人工智能模型训练时长资料来源:Epoch AI,2025|图表:2025 年人工智能指数报告2010201120122013201420152016201720182019202020212022202320240.1110100AlexNetTransformerBERT-LargeRoBERTaLarge GPT-3 175B(davinci)Megatron-Turing NLG530B PaLM(540B)GPT-4Llama3.1-405B 训练时长(天-对数刻度)图 1.3.14发布日期2025年人工智能指数报
137、告第一章:研究与开发1.3 标志性人工智能模型目录第一章预览56算力发展趋势在人工智能模型领域,compute(计算资源)特指训练和运行机器学习模型所需的基础算力资源。通常而言,模型复杂度与训练数据集规模将直接影响所需算力资源的多少。模型复杂度越高、训练数据量越大,其训练过程所需的算力规模就越大。在最终训练运行之前,研究人员会在整个研发阶段进行多次测试运行。虽然单个模型的训练成本相对较低,但多次研发迭代所需的累计费用,以及必要数据集费用,将快速攀升至可观规模。需注意,当前数据仅反映最终训练阶段的成本,而非完整研发流程的总投入。图 1.3.15 展示了近 22 年间标志性机器学习模型所需的训练算
138、力变化情况。值得注意的是,近年来重要人工智能模型的算力消耗已呈现指数级增长态势。22 据 Epoch 估算,标志性人工智能模型的训练算力大约每五个月翻一番。这一趋势在过去五年中尤为明显。算力需求的快速增长具有重要影响。以计算密 集 型 模 型 为 例,其 往 往 会 产 生 更 大 的 环 境 足 迹(environmental footprints),而企业机构通常比学术组织拥有更丰富的计算资源。作为参考,人工智能指数第 2 章分析了计算资源提升与模型性能改进之间关联性。20032024 年按行业划分的标志性人工智能模型训练计算量资料来源:Epoch AI,2025|图表:2025 年人工智
139、能指数报告训练计算量(千兆浮点运算次数-对数刻度)图 1.3.1523发布日期22、FLOP(floating-point operation)指 浮点运算。浮点运算是涉及浮点数的单一算术运算,如加法、减法、乘法或除法。处理器或计算机每秒可执行的 FLOP 数量是衡量其计算能力的指标。FLOP 率越高,计算机的计算能力就越强。用于训练人工智能模型浮点运算次数反映了该模型在开发过程中对算力的需求。23、训练算力估算是人工智能模型分析的一个重要方面,但往往需要间接测量。在无法获得直接报告的情况下,Epoch 通过使用硬件规格和使用模式或根据模型架构和训练数据计算算术运算来估算计算量。在这两种方法都
140、不可行的情况下,比较基准性能可作为代理,通过比较模型与已知计算值来推断训练算力。有关 Epoch 方法的全部详情,请参阅其网站的文档部分。2003 2004 2005 2006 2007 2008 2009 2010201120122013201420152016201720182019 2020 2021 2022 2023 20241000.01110010K1M100M10BIndu tryGov ernment学术界产业界研究共同体产业界学术界研究共同体学术界政府2025年人工智能指数报告第一章:研究与开发1.3 标志性人工智能模型目录第一章预览57图 1.3.16 显示了自 2012
141、 年以来标志性机器学习模型的训练算力需求变化情况。例如,AlexNet 网络是推广使用 GPU改进人工智能模型的标准做法的模型之一,其训练估计需要470 petaFLOP。242017 年发布的原 Transformer 需要约7,400 petaFLOP。OpenAI 的 GPT-4o,当前最先进的基础模型之一,需要 380 亿 petaFLOP。现在,开发尖端人工智能模型需要海量数据、巨额算力及雄厚的资金支持,而这些都是学术界无法获得的。大多数领先的人工智能模型都来自产业界,去年的人工智能指数首次强调了这一趋势。虽然今年的差距略有缩小,但这一趋势依然存在。20122024 年按领域划分的标
142、志性人工智能模型训练计算量资料来源:Epoch AI,2025|图表:2025 年人工智能指数报告训练计算量(千兆浮点运算次数-对数刻度)图 1.3.1624、petaFLOP(PFLOP)是一个衡量计算性能的单位,1 PFLOP 相当于每秒四千万亿(10r)次浮点运算DeepSeek-V3Qwen2.5-72BLlama2-70B Claude 2PaLM(540B)Megatron-Turing NLG 530BGPT-3 175B(davinci)RoBERTa LargeBERT-LargeTransformerSegment Anything ModelAlexNetGPT-4201
143、2201320142015201620172018201920202021202220232024100010K100K1M10M100M1B10B100BLanguageVisionMultimodalMistral Large 2Claude 3.5 SonnetGemini1.5Pro GPT-4oERNIE 3.0 Titan发布日期2025年人工智能指数报告第一章:研究与开发1.3 标志性人工智能模型目录第一章预览582024 年 12 月,Deep Seek 推出了 V3 模型,引起了广泛关注,尤其是因为该模型在计算资源需求远低于许多领先的大语言模型的情况下,实现了卓越的性能。图
144、1.3.17 比较了美国和中国一些标志性机器学习模型的训练计算量,凸显了一个关键趋势:美国顶级人工智能模型的计算量通常远高于中国模型。根据 Epoch AI 的研究数据,自 2021 年底以来,中文前十大语言模型的训练算力年均增长约 3 倍,显著低于 2018年以来全球其他地区 5 倍的年均增速。20182024 年美国与中国部分标志性人工智能模型训练算力分析资料来源:Epoch AI,2025|图表:2025 年人工智能指数报告训练计算量(千兆浮点运算次数-对数刻度)图 1.3.17发布日期2018201920202021202220232024100100010K100K1M10M100M
145、1B10B100B美国中国GPT-4GPT-3 175B(davinci)Grok-2Claude 3.5 SonnetDeepSeek-V3Doubao-proERNIE3.0 Titan Qwen2.5-72B2025年人工智能指数报告第一章:研究与开发1.3 标志性人工智能模型目录第一章预览59整个网络(包括私人数据)图片视频重点:模型训练会面临数据枯竭吗?人工智能系统在算法上取得实质性改进的主要驱动力之一,是在越来越大的数据集上扩展模型及其训练。然而,随着互联网训练数据的日益枯竭,人们越来越担心这种扩展方法的可持续性以及数据瓶颈的可能性,因为在这种情况下,规模收益会逐渐减少。去年的人工
146、智能指数探讨了这场辩论中的各种因素,包括现有互联网数据的可用性以及在合成数据上训练模型的潜力。今年的新研究表明,现有数据存量的持续时间可能比之前预期的要长。Epoch AI 更新了之前对人工智能研究人员何时可能耗尽数据的估计。在最新研究中,该团队根据词元计数估算了可用于训练模型的有效数据总存量(图 1.3.18)。Common Crawl,一个常用于人工智能训练的开放式网络爬虫数据库,是人工智能训练中经常使用的网络抓取数据开放存储库,据估计,它包含的词元中位数为 130 万亿个。索引网络包含约 510 万亿个词元,而整个网络包含约 3100 万亿个词元。此外,图片总存量估计为 300 万亿,视
147、频为1350 万亿。数据存量中位数估计值资料来源:Epoch AI,2025|图表:2025 年人工智能指数词元数量(中位数对数刻度)图 1.3.18130T510T3,100T300T1,350TCommon CrawlIndex web300T1000T3000T数据来源2025年人工智能指数报告第一章:研究与开发1.3 标志性人工智能模型目录第一章预览60重点:模型训练会面临数据枯竭Epoch AI 研究团队预计,在 80%的置信区间内,当前的训练数据存量将在 2026 年至 2032 年期间全部用完(图 1.3.19)。数据耗尽的具体时间受多种因素影响。关键因素之一是数据集规模的历史增
148、长,这取决于互联网用户生成和贡献内容的数量。另一关键因素在于算力使用效率若采用最优算力配置方案进行模型训练,现有数据存量可支撑更长时间。但是,如果为提升高效推理计算能力而对模型过度训练,则数据存量可能更快耗尽。当人工智能模型被过度训练时,即它们被训练的时间超过了典型的收益递减点,它们可能会实现更高的推理计算效率,也就是说,它们可以使用更少的计算能力来处理提示(进行预测、生成文本等)。然而,代价是数据存量(即可用于训练模型的数据)的加速消耗。公共文本和数据使用存量的预测资料来源:Epoch AI,2025|图表:2025 年人工智能指数有效存量(词元数量-对数刻度)发布日期图 1.3.19(续)
149、Llama 3.1-405BDBRXFalcon-180BPaLM(540B)FLAN 137BGPT-3 175B(davinci)2020202220242026202820302032203410B100B1T10T100T1015 数据存量估计值数据存量完全利用的中位时间点存量完全利用的中位日期(5倍过训练)2025年人工智能指数报告重点:模型训练会面临数据枯竭这些预测与 Epoch 早期的估计略有不同,后者曾预测高质量文本数据将在 2024 年耗尽。修订后的预测反映了一种更新后的方法论,该方法结合了新研究,表明网络数据比精选语料库表现更好,且模型可以多次在同一数据集上训练。研究发现,
150、经过精心过滤的网络数据是有效的,且重复训练同一数据集是可行的,这扩展了对可用数据量的估计。因此,Epoch 研究人员推迟了数据耗尽可能发生的时间预测。使用合成数据(即由人工智能模型自身生成的数据)来训练模型也被认为是解决潜在数据短缺的一种方案。2024 年人工智能指数报告指出,这种方法存在局限性,即模型在多次使用合成数据训练后,可能会丢失分布尾部的表征,从而导致模型输出质量下降。这一现象在不同模型架构中均被观察到,包括变分自编码器(VAEs)、高斯混合模型(GMMs)和大语言模型(LLMs)。然而,最新研究表明,当合成数据与真实数据叠加使用而非完全替代时,模型崩溃现象不会发生。尽管这种叠加不一
151、定会提升性能或降低测试损失(测试损失越低,模型性能越好),但也不会导致像完全替换数据时那样的性能退化(图 1.3.20)。数据积累对在 TinyStories 上预训练的语言模型的影响资料来源:Gerstgrasser 等,2024|图表:2025 年人工智能指数报告交叉熵(测试)模型拟合迭代模型拟合迭代图 1.3.20(续)第一章:研究与开发1.3 标志性人工智能模型目录第一章预览61123451.61.822.22.42.62.8123451.61.822.22.42.62.8Llama-2(126M)Llama-2(42M)Llama-2(12M)GPT-2(9M)替代累计2025年人工
152、智能指数报告第一章:研究与开发1.3 标志性人工智能模型目录第一章预览62重点:模型训练会面临数据枯竭本年度,高保真合成数据(high-fidelitysynthetic data)的生成技术取得了进展。然而,合成数据与真实数据总体上仍有区别,与真实数据相比,目前没有可扩展的方法能使大语言模型在合成数据上的训练表现与真实数据相当。斯洛文尼亚研究团队通过多种架构和数据集对比了合成数据与真实数据的训练效果,评估了合成关系数据在保留原始数据的关键特征(保真度)和对下游任务的有用性(实用性)方面的表现。他们发现,大多数方法生成的合成数据可被系统性识别,尤其在涉及关系信息时更为明显。此外,与真实数据训练
153、的模型相比,其高效注意力通常会下降,但有些方法仍能获得中等偏上的预测分数。在少数实验中,合成数据表现更优,例如使用 Synthetic Data Vault(SDV)合成数据训练 XGBoost 分类器的效果优于沃尔玛数据,平均平方误差(MSE)更低。另有证据表明,合成数据在医疗领域潜力显著:某些模型架构通过合成增强数据集训练,可使分类和预测任务的 F1 分数或 AUROC(接收者操作特征曲线下面积)在少数类上提升 5%-10%。25众所周知,大语言模型会产生幻觉并提供与事实不符的输出结果,因此人们对合成生成数据质量和保真度表示担忧。在对数据集中的幻觉内容进行训练时,模型的输出质量可能加速恶化
154、。为解决这一问题,人们开发了新技术。例如,斯坦福大学和北卡罗来纳大学教堂山分校的研究人员利用自动事实检查和置信度评分来对模型响应对的 事 实 性 评 分 进 行 排 序。这 些 研 究 人 员 推 出FactTune-FS 方法在事实性改进方面往往优于其他基于 RLHF 和解码的方法(图 1.3.21)。此外,Human-in-the-loop 标记首选回答的方法也被用于对齐语言模型,虽然有效,但成本较高。最后,训练前可通过事后过滤和去偏方法剔除合成数据中的异常值。25、AUROC(接收者操作特征曲线下面积)是评估人工智能模型性能的常用指标,尤其适用于分类任务。(续)2025年人工智能指数报告
155、第一章:研究与开发1.3 标志性人工智能模型目录第一章预览63重点:模型训练会面临数据枯竭随着合成数据的普及,特别是人工智能生成的网络内容所占比例越来越大,未来的模型将不可避免地在非人类生成的材料上进行训练。虽然合成数据具有近乎无限供应的优势,但要有效地利用合成数据进行模型训练,还需要深入了解其对学习动态和学习效果的影响。数据集扩展的一种方法是数据增强,即通过修改真实数据(如图像倾斜或混合)在保留关键特征的前提下创造新的变化。合成数据生成和数据增强都为增强人工智能模型提供了机会,但其有效运用还需要进一步研究。(续)事实准确性(传记类问题的答案正确率)资料来源:Tian 等,2023|图表:20
156、25 年人工智能指数报告答案正确率图 1.3.2156.80%66.90%69.60%70.10%74.80%75.40%76.00%78.30%81.20%84.60%89.50%SFTITI DOLAFactTune-MCFactTune-FSSFTITI DOLAChatFactTune-MCFactTune-FSLlama-1Llama-20%20%40%60%80%100%基础模型和方法2025年人工智能指数报告第一章:研究与开发1.3 标志性人工智能模型目录第一章预览64推理成本去年的人工智能指数强调了前沿大语言模型系统训练成本的快速上升。今年,除了更新对训练成本的分析外,该指数还
157、研究了前沿系统的推理成本是如何随时间推移而变化的。推理成本指查询已训练模型所需的费用,通常以每百万词元的美元价格衡量。人工智能词元定价数据来自 Artificial Analysis 和 Epoch AI 的 API 定价专有数据库,报告价格为输入与输出词元价格的 3:1 加权平均值为分析推理成本。人工智能指数与 Epoch 合作测量了在固定人工智能性能阈值下成本的下降情况。这种标准化方法有助于更精确的比较。虽然新模型价格可能更高,但其性能也显著提升若直接与性能较低的老模型比较,可能掩盖真实趋势:单位美元获得的人工智能性能已大幅提高。例如,在 MMLU 测试(评估语言模型性能的常用比较基准)中
158、达到 GPT-3.5 水平(64.8 分)的模型,其推理成本从 2022 年 11 月的每百万词元 20 美元降至 2024 年 10 月的 0.07 美元(Gemini-1.5-Flash-8B),约 1.5 年内下降超 280 倍。在 GPQA(比 MMLU 更具挑战性的比较基准)上得分超过 50%的模型的成本也呈现出类似的趋势。在这方面,推理成本从 2024 年 5 月的每百万词元 15 美元降至同年 12 月的 0.12 美元(Phi 4)。Epoch AI 估计,根据任务不同,大语言模型的推理成本正以每年 9 至 900 倍的速度下降。20222024 年选定的比较基准的推理成本资料
159、来源:Epoch AI,2025;Artificial Analysis,2025|图表:2025 年人工智能指数报告推理成本(美元/百万词元-对数刻度)图 1.3.22发布日期GPT-3.5Llama-3.1-Instruct-8BGemini-1.5-Flash-8BGPT-4o-2024-05Phi4Claude-3.5-Sonnet-2024-06 GPT-4-0314DeepSeek-V32022.092023.012023.052023.092024.012024.052024.092025.010.1110GPT-3.5 level+在多项语言理解任务(MMLU)GPT-4 le
160、vel+在代码生成任务(HumanEval)GPT-4o level+在博士级科学问题测试(GPQA Diamond)GPT-4o level+在 LMSYS Chatbot Arena Elo2025年人工智能指数报告第一章:研究与开发1.3 标志性人工智能模型目录第一章预览65实现特定性能水平的推理成本已显著下降,但最先进模型仍比前文提及的其它模型更昂贵。图 1.3.23 展示了 OpenAI、Meta 和 Anthropic 等开发商的领先模型每百万词元的成本。26这些顶级模型的定价通常高于同公司的较小模型,反映了尖端性能所需的溢价。训练成本围绕基础模型经常讨论的是其高昂的训练成本。虽然
161、人工智能公司很少披露确切数字,但据广泛估计,成本高达数以百万美元计,而且还在持续上升。但普遍估计成本已达数百万美元 计 且 持 续 攀 升。例 如,OpenAI CEO Sam Altman 透 露 GPT-4 训练费用超 1 亿美元;2024 年 7月 Anthropic CEO Dario Amodei 指出,已投入约 10 亿美元规模的训练成本。较新的 DeepSeek-V3 据报成本较低(约 600 万美元),但总体而言训练仍极其昂贵。27了解与训练人工智能模型相关的成本仍然很重要,但详细的成本信息仍然很少。去年,人工智能指数发布了对基础模型训练成本的初步估算,人工智能指数再次与 Ep
162、och AI 合作,更新并完善了这些估算。为了计算尖端模型的成本,Epoch 团队根据论文、新闻稿和技术报告中的信息,分析了培训时间、硬件类型、数量和使用率等因素。2826、该指数直观显示了截至 2025 年 2 月公开定价的部分先进机型。自发布以来,更新的机型可能已经发布,定价也可能发生变化。27、一些报道对 DeepSeek-V3 的既定成本提出了质疑,认为如果将员工工资、资本支出和研究费用考虑在内,实际开发成本要高得多。28、有关 Epoch 研究方法的详细报告见本文。选定的模型的输出价格(每百万词元)资料来源:Artificial Analysis,2025|图表:2025 年人工智能
163、指数报告图 1.3.23输出成本(以百万词元为单位,以美元计价)模型60.0015.006.005.003.502.19o101020304050602025年人工智能指数报告第一章:研究与开发1.3 标志性人工智能模型目录第一章预览66图 1.3.24 显示了根据云计算租赁价格估算的部分人工智能模型的相关训练成本。图 1.3.25 则呈现了人工智能指数掌握的所有模型训练成本估算。人工智能指数的估算验证了人们的猜测,即近年来模型训练成本大幅增加。例如,2017 年提出的 Transformer 模型,该架构支撑了几乎所有现代大语言模型,训练成本约为 670 美元;2019 年发布的 RoBER
164、Ta Large,在 SQuAD 和 GLUE 等经典理解比较基准中达到当时最优水平,训练成本约 16 万美元;至2023 年,OpenAI 的 GPT-4 训练成本估算已达 7900 万美元。2024 年 Epoch 在少数可估算成本的模型中,发现 Llama 3.1-405B 的训练成本约 1.7 亿美元。随着人工智能领域的竞争日趋激烈,企业对其训练过程的披露越来越少,使得估算计算成本变得越来越困难。正如之前的人工智能指数报告所指出的,人工智能模型的训练成本与其计算需求之间存在直接的关联。如图 1.3.26 所示,计算需求更高的模型训练成本显著增加。29、本节中报告的费用数字是经过通货膨胀
165、调整的。20192024 年选定的人工智能模型估计训练成本资料来源:Epoch AI,2024|图表:2025 年人工智能指数报告图 1.3.24 29训练成本(单位:美元)670160K4M6M1M12M79M29M3M26M192M41M170M107MTransformerRoBERTa LargeGPT-3 175B(davinci)Megatron-Turing NLG 530BLaMDAPaLM(540B)GPT-4PaLM 2Llama 2-70BFalcon-180BGemini 1.0 UltraMistral LargeLlama 3.1-405BGrok-22017201
166、920202021202220232024050M100M150M200M2025年人工智能指数报告第一章:研究与开发1.3 标志性人工智能模型目录第一章预览672016-2024 年选定的人工智能模型训练成本估算资料来源:Epoch AI,2024|图表:2025 年人工智能指数报告训练成本(以美元为单位-对数刻度)选定的人工智能模型训练成本估算及算力资料来源:Epoch AI,2024|图表:2025 年人工智能指数报告训练成本(以美元为单位-对数刻度)发布日期训练算力(千兆浮点运算次数-对数刻度)图 1.3.25图 1.3.26Llama 3.1-405BNemotron-4 340BG
167、emini 1.0 UltraIn ection-2Falcon-180BLlama 2-70BPaLM 2GPT-4LLaMA-65BGPT-3.5BLOOM-176BPaLM(540B)LaMDAHyperCLOVA 82BMeta Pseudo LabelsSwitchGPT-3 175B(davinci)AlphaStarMegatron-BERTRoBERTa LargeBigGAN-deep 512512JFTXceptionGNMT20162017201820192020202120222023202410K100K1M10M100MGrok-2Llama 3.1-405BMis
168、tral LargeGemini 1.0 UltraFalcon-180BLlama 2-70BPaLM 2GPT-4PaLM(540B)LaMDAMegatron-Turing NLG 530BGPT-3 175B(davinci)RoBERTa Large10M100M1B10B100B100K1M10M100M2025年人工智能指数报告第一章:研究与开发1.4 硬件目录第一章预览682008-2024 年不同精度下机器学习硬件的峰值计算性能资料来源:2025 年人工智能指数|图表:2025 年人工智能指数报告图 1.4.1性能(FLOP/s-对数刻度)1.4 硬件概览图 1.4.1 展示
169、了不同精度类型的机器学习硬件的峰值计算性能,其中精度是指计算中用于表示数值(尤其是浮点数)的比特数。精度的选择取决于具体目标。例如,低精度硬件需要的比特数更少,内存带宽更低,是优化计算速度和能效的理想选择。这尤其有利于边缘/移动设备的人工智能模型或推理速度优先的场景。另一方面,精度更高的硬件可以保留更高的数值准确率,因此对于科学计算和对精度误差敏感的应用至关重要。在下图可视化的精度中,FP32 精度最高,TF32 为中高精度,Tensor-FP16/BF16 和 FP16 则是为速度与效率优化的低精度格式。Epoch 估计以 16 位浮点运算为单位,机器学习硬件的运算能力在 2008-2024
170、 年间的年增长率约为 43%,每 1.9 年翻一番。据 Epoch 分析,这一进步源于晶体管数量增加、半导体制造工艺改进以及人工智能专用硬件的发展。硬件进步对推动人工智能发展具有关键作用。虽然扩大模型规模和使用更大数据集训练带来了显著性能提升,但这些进展主要得益于硬件的改进尤其是更强大、更高效的 GPU(图形处理器)的发展。GPU 加快了复杂计算的速度,使模型能够并行处理海量数据并显著缩短训练时间。本节利用 Epoch AI 的数据分析机器学习硬件的主要趋势及其对人工智能发展的影响。虽然本节目前强调的是计算性能(FLOP/s),但网络带宽(GPU 的通信速度)同样至关重要。虽然有关数据中心网络
171、带宽的数据有限,但未来版本的人工智能指数将致力于纳入这方面的信息。发布日期2008200920102011201220132014201520162017201820192020202120222023202410B100B1T10T100T10 1510 16FP32FP16TF32(19-bit)Tensor-FP16/BF162025年人工智能指数报告第一章:研究与开发1.4 硬件目录第一章预览69硬件主流机器学习硬件的性价比持续提升。图 1.4.2 展示了部分英伟达数据中心 GPU 的性能,这些都是人工智能训练最常用的,单位为每秒 FLOP。图 1.4.3 显示了这些 GPU 的性价比
172、,单位为每美元每秒 FLOP。例如,2022 年 3 月发布的 H100 图形处理器、达到每美元每秒 220 亿 FLOP,性价比约为 A100(2020 年 6 月推出)的 1.7 倍,P100(2016 年 4 月发布)的 16.9倍。据 Epoch 估算,性能水平固定的硬件成本每年下降 30%,这使得人工智能训练越来越经济实惠、可扩展,并有利于模型改进。英伟达数据中心 GPU 在机器学习方面的领先性能资料来源:Epoch AI,2024|图表:2025 年人工智能指数报告图 1.4.2性能(每秒 FLOP)1.8710 13 1.2510 14 3.1210 14 9.8910 14 P
173、100V100A100H100201620172020202200.210 15 0.410 15 0.610 15 0.810 15 110 15 2025年人工智能指数报告第一章:研究与开发1.4 硬件目录第一章预览70每秒每美元的 FLOP发布日期图 1.4.4 基于 Epoch AI 标志性机器学习模型数据集,统计了训练这些模型所使用的硬件。截至2024年,最常用的硬件是 A100(6个模型使用),其次是 V100。使用 H100 训练的模型数量正在快速增长,2024年底已达 15 个。机器学习领域领先的英伟达数据中心 GPU 的性价比资料来源:Epoch AI,2024|图表:202
174、5 年人工智能指数报告机器学习领域领先的英伟达数据中心 GPU 的性价比资料来源:Epoch AI,2024|图表:2025 年人工智能指数报告图 1.4.3图 1.4.4硬件 标志性人工智能模型的累计数量1.3010 9 6.7010 9 1.3010 10 2.2010 10 110510110 1.510 210 H100A100V100P1002017201820192020202120222023202401020304050606,P10015,H10025,TPU v437,Other47,TPU v356,V10065,A100重点:能源效率和环境影响训练人工智能系统需要大量能
175、源,因此机器学习硬件的能效是一个关键因素。Epoch AI 报告称,随着时间的推移,机器学习硬件的能效越来越高,提高约40%。图 1.4.5展示了Tensor-FP16 精度硬件的能效(以每瓦 FLOP 计量)。例如,2024 年 3 月发布的英伟达 B100 能效达 2.5 万亿 FLOP/瓦,而 2016 年 4 月发布的 P100 仅为 740 亿FLOP/瓦,这意味着 B100 的能效是 P100 的 33.8 倍。2016-2024 年领先机器学习硬件的能效资料来源:Epoch AI,2025|图表:2025 年人工智能指数报告能效(每瓦 FLOP/s-对数刻度)图 1.4.5发布日
176、期2025年人工智能指数报告第一章:研究与开发1.4 硬件目录第一章预览712016201720182019202020212022202320241B10B100B1T领先硬件非领先硬件NVIDIA P100Google TPU v2Google TPU v3Google TPU v4NVIDIA Tesla V100 SXM2 32 GBGoogle TPU v4iNVIDIA A100Google TPU v5eNVIDIA B100NVIDIA H100 SXM5 80GBNVIDIA GB200 NVL2NVIDIA B2002025年人工智能指数报告第一章:研究与开发1.4 硬件目
177、录第一章预览72重点:能源效率和环境影响尽管人工智能硬件的能效有了很大提高,但训练人工智能系统所需的总功耗仍在快速上升。图 1.4.6 展示了训练各种最先进人工智能模型的总功耗(以瓦为单位)。例如,2017 年提出的原 Transformer 模型功耗约为 4,500 瓦,而谷歌早期旗舰大语言模型 PaLM 功耗达 260 万瓦,是 Transformer 的近 600 倍。2024 年夏季发布的 Llama 3.1-405B 功耗达 2,530 万瓦,较原 Transformer 增长超5,000 倍。根据 Epoch AI,训练标志性人工智能模型所需的功耗每年翻一番。人工智能模型能耗的持续
178、增长反映了其训练过程中对越来越大数据集的依赖趋势。不难理解,随着时间的推移,用于训练人工智能系统的总电量在增加,模型排放的碳量也在增加。决定人工智能系统碳排放量的因素很多,包括模型中的参数数量、数据中心用电效率(PUE)以及电网碳强度。3020112024 年训练前沿模型所需的总功率消耗资料来源:Epoch AI,2025|图表:2025 年人工智能指数报告总功率需求(瓦特-对数刻度)图 1.4.6发布日期Llama 3.1-405B GPT-4PaLM(540B)GPT-3 175B(davinci)2011201220132014201520162017201820192020202120
179、2220232024100010K100K1M10M30、电力使用效率(PUE)是用于评估数据中心能效的一个指标。计算公式为数据中心总能耗(含制冷)与 IT 设备能耗之比,PUE 值越高,数据中心的效率越低。2025年人工智能指数报告第一章:研究与开发1.4 硬件目录第一章预览73重点:能源效率和环境影响(续)图 1.4.7 展示了按发布年份排序的部分人工智能模型的碳排放量。为了估算这些排放量,人工智能指数使用了模型开发者公布的碳数据,并辅以广泛使用的在线人工智能训练排放量计算器的测算结果。由于多数开发者未披露模型碳足迹,这一补充计算十分必要。该计算器根据训练所用硬件类型、总训练时间、云服务商
180、和训练地区来估算排放量。31随着时间的推移,训练标志性人工智能模型所产生的碳排放量稳步上升。虽然 AlexNet 的排放量可以忽略不计,但据报道,GPT-3(2020 年发布)在训练期间的碳排放量约为 588 吨,GPT-4(2023 年)的排放量为 5184 吨,Llama 3.1 405B(2024 年)的排放量为 8930 吨。2024 年发布的 DeepSeekV3,其性能与 OpenAI 的 o1 相当,估计其排放量与五年前发布的 GPT-3 相当。作为参照,美国人平均每人每年的碳排放量为 18.08 吨。20122024 年年特定人工智能模型及实际活动产生的碳排放量估算资料来源:E
181、poch AI,2025|图表:2025 年人工智能指数报告 碳排放量(二氧化碳当量吨)图 1.4.731、人工智能指数从各种在线来源获取了排放计算器的输入数据,如训练硬件和持续时间。为了验证计算器的准确率,我们将计算器的估计值与开发人员报告的实际排放量进行了比较,发现结果基本一致。完整的估算方法详见附录。0.010.312.605.505881,4323012,9735,1845978,930AlexNetVGG16BERT-LargeRoBERTa LargeGPT-3Megatron-Turing NLGGLM-130BFalcon-180BGPT-4DeepSeek v3Llama 3
182、.1 405B20122014201820192020202120222023202402,0004,0006,0008,000航空旅行(1名乘客,纽约往返旧金山):0.99人类平均寿命(1年):5.51美国人均寿命(1年)18.08汽车使用(含燃油,平均终身使用量):632025年人工智能指数报告第一章:研究与开发1.4 硬件目录第一章预览74重点:能源效率和环境影响(续)选定的人工智能模型估算的碳排放量及参数数量资料来源:Epoch AI,2025|图表:2025 年人工智能指数报告参数数量(对数刻度)图 1.4.8碳排放量(二氧化碳当量吨-对数刻度)AlexNetVGG16BERT-La
183、rgeRoBERTa LargeGPT-3Megatron-Turing NLGGLM-130BFalcon-180BGPT-4DeepSeek v3Llama 3.1 405B0.010.1110100100010K1B1T1.5 人工智能会议参会规模图 1.5.1 展示了 2010 年以来部分人工智能会议的参会人数。2020 年,新冠疫情迫使会议在线举行,参会人数显著增加。随后,可能由于会议恢复到线下形式,参会人数有所下降,2022 年参会人数恢复到疫情前的水平。此后,参会人数稳步增长,2023 至 2024 年增幅达 21.7%。32自 2014 年起,年参会人数增长超 6 万,既反映人
184、工智能研究热度上升,也体现新会议涌现。神经信息处理系统大会(NeurIPS)仍是最受欢迎的人工智能会议,2024 年吸引近 2 万名参会者(图 1.5.2-1.5.3)。在主要的人工智能会议中,NeurIPS、CVPR、ICML、ICRA、ICLR、IROS 和 AAAI 去年的参会人数都有所增加。人工智能会议是研究人员展示研究成果、与同行和合作者建立联系的重要平台。在过去二十年,这些会议的规模、数量和影响力都在不断扩大。本节将探讨主要人工智能会议的参会趋势。2025年人工智能指数报告第一章:研究与开发1.5 人工智能会议目录第一章预览7532、对于近年来许多会议采用虚拟或混合形式举办的情况,
185、这些数据应谨慎解读。会议组织方指出,由于虚拟会议使得全球研究者的参与更为便利,准确统计线上会议的出席人数存在困难。AI Index报告中的总出席人数涵盖了虚拟参会、混合参会和线下参会三种形式。本次统计覆盖的会议包括:AAAI、AAMAS、CVPR、EMNLP、FAccT、ICAPS、ICCV、ICLR、ICML、ICRA、IJCAI、IROS、KR、NeurIPS和UAI等人工智能领域重要会议。2010-2024 年期间部分人工智能会议参会情况资料来源:Artificial Analysis,2025|图表:2025 年人工智能指数报告图 1.5.1参会人数(以千计)2010201120122
186、0132014201520162017201820192020202120222023202410203040506070809073.262025年人工智能指数报告目录第一章预览7620102024 年大型会议的参会人数资料来源:AI Index,2024|图表:2025 年人工智能指数报告20102024 年小型会议的参会人数资料来源:AI Index,2024|图表:2025 年人工智能指数报告图 1.5.233图 1.5.3参会人数(以千计)参会人数(以千计)33、2021 年 ICML 参会人数大幅飙升,很可能是由于该年的会议是线上举行的。2010201120122013201420
187、152016201720182019202020212022202320240510152025303.50,EMNLP5.15,AAAI5.20,IROS6.53,ICLR7.00,ICRA9.10,ICML12.00,CVPR19.76,NeurIPS2010201120122013201420152016201720182019202020212022202320240.000.501.001.502.002.503.003.500.20,KR0.24,ICAPS0.43,UAI0.63,AAMAS0.69,FaccT2.84,IJCAI第一章:研究与开发1.5 人工智能会议201120
188、24 年 GitHub 上的人工智能项目数量资料来源:GitHub,2024|图表:2025 年人工智能指数报告图 1.6.1人工智能项目数量(以百万计)1.6 开源人工智能软件开源人工智能软件项目GitHub 项目由一系列文件组成,包括源代码、文档、配置文件和图像,这些文件共同构成了一个软件项目。图 1.6.1 显示了随着时间推移 GitHub 人工智能项目的总数的变化。35 自 2011 年以来,与人工智能相关的 GitHub 项目数量持续增长,从 2011 年的 1,549 个增至 2024 年的约 430 万个。值得注意的是,仅去年一年,GitHub 人工智能项目总数激增了 40.3%
189、。2025年人工智能指数报告目录第一章预览77第一章:研究与开发1.6 开源人工智能软件201120122013201420152016201720182019202020212022202320240.000.501.001.502.002.503.003.504.004.504.3234、今年 GitHub 更新了其方法,以捕捉更广泛的人工智能相关主题,包括更多最新发展。因此,今年的人工智能指数中的数据可能与以往版本的数据不对齐。中国研究人员经常使用 GitHub 以外的其他网站共享代码,如 Gitee 和 GitCode,但本报告不包括这些网站的数据。完整的方法说明见附录。35、GitH
190、ub 使用人工智能主题分类方法来识别与人工智能相关的知识库。有关该方法的详细信息,请参阅附录。GitHub 是一个基于 Web 的平台,使个人和团队能够托管、审查和协作代码库。作为软件开发者广泛使用的工具,GitHub 提供代码管理、项目协作和开源软件支持功能。本节基于来自 GitHub 的数据,深入分析论文数据中未反映的开源人工智能软件开发的广泛趋势。342025年人工智能指数报告目录第一章预览78第一章:研究与开发1.6 开源人工智能软件图 1.6.2 展示了 2011 年以来 GitHub 人工智能项目的地理分布。截至 2024 年,美国贡献了 23.4%的 GitHub 人工智能项目,
191、占比最高;印度以 19.9%位居第二,欧洲以 19.5%紧随其后。值得注意的是,自 2016 年起,美国开发者在 GitHub开源人工智能项目中的占比持续下降,近年趋于稳定。20112024 年按地理区域划分的 GitHub 人工智能项目占比资料来源:GitHub,2024|图表:2025 年人工智能指数报告图 1.6.2人工智能项目(占总数的百分比)201120122013201420152016201720182019202020212022202320240%10%20%30%40%50%60%35.43%,全球其他地区23.42%,美国19.91%,印度19.15%,欧洲2.08%,中
192、国2025年人工智能指数报告目录第一章预览79第一章:研究与开发1.6 开源人工智能软件星标GitHub 用户可通过 加星(starring)功能表达对代码仓库的关注,类似于社交媒体点赞,代表对开源项目的支持。最受关注的仓库包括 TensorFlow、OpenCV、Keras 和 PyTorch 等库,这些项目不仅在人工智能领域,更在整个开发者社区中广受欢迎。TensorFlow、Keras 和 PyTorch 是构建和部署机器学习模型的常用库,而 OpenCV 则提供计算机视觉相关工具,如目标检测和特征提取。GitHub 上人工智能相关项目的星标总数持续增长,从2023 年的 1,400 万
193、增至 2024 年的 1,770 万(图 1.6.3)。36此前 2022 至 2023 年间星标数已实现翻倍激增。20112024 年人工智能项目在 GitHub 上的星标数量资料来源:GitHub,2024|图表:2025 年人工智能指数报告图 1.6.3GitHub 星标数量(以百万为单位)2011201220132014201520162017201820192020202120222023202402468101214161817.6436、图 1.6.3 显示年度新增星标数,而非历史累计总量。2025年人工智能指数报告目录第一章预览80括欧洲、中国和印度,其本国项目在 GitHub
194、 上获得的星标数量均较上年同期有所增长。第一章:研究与开发1.6 开源人工智能软件2024 年,美国在 GitHub 星标数统计中位居全球首位,总计达 2110 万(图 1.6.4)。所有被抽样调查的主要地理区域,包20112024 年按地理区域划分的 GitHub 星标数量资料来源:GitHub,2024|图表:2025 年人工智能指数报告图 1.6.4GitHub 累计星标数量(以百万为单位)201120122013201420152016201720182019202020212022202320240510152021.08,美国16.39,全球其他地区10.29,欧洲4.06,印度3
195、.67,中国2025年人工智能指数报告第二章:技术性能2025年人工智能指数报告第二章:技术性能 VCR:视觉常识推理 MVBench生成能力 Chatbot Arena:视觉 重点:视频生成的崛起2.4 语音语音识别 LSR2:Lip Reading Sentences 22.5 编程 HumanEval SWE-bench BigCodeBench Chatbot Arena:编程能力测评2.6 数学 GSM8K MATH Chatbot Arena:数学能力测评 FrontierMath 重点:学习与定理证明2.7 推理通用推理 MMMU:面向专家级 AGI 的大规模多学科 多模态理解与
196、推理基准 GPQA:A Graduate-Level Google-Proof Q&A Benchmark ARC-AGI Humanitys Last Exam(人类终极考试,HLE)规划 PlanBench概述章节要点2.1 2024 年人工智能技术发展概览时间表:重要模型和数据集发布人工智能性能状况 总体回顾 闭源权重模型与开源权重模型的对比 美国与中国技术性能对比 小型模型性能提升 前沿模型性能趋同人工智能基准比较2.2 语言语言理解 MMLU:大规模多任务语言理解生成任务 Chatbot Arena Leaderboard Arena-Hard-Auto WildBench 重点:o
197、1,o3,与推理时间计算 MixEvalRAG:检索增强生成 Berkeley Function Calling Leaderboard MTEB:大规模文本嵌入式比较基准 重点:长上下文检索评估2.3 图像与视频理解能力84858787939394969899100103104104105105107108110112113113115117119119119120122123124126126126128128129130131132132133134134136137137137138139141143143目录第二章预览822025年人工智能指数报告第二章:技术性能(续)2.8 AI
198、智能体 VisualAgentBench RE-Bench GAIA2.9 机器人与自主运动机器人 RLBench 重点:人形机器人 重点:DeepMind 的进展 重点:机器人基础模型自动驾驶汽车 发展 技术创新与新比较基准 安全标准144144145147148148148150151154155155156157目录第二章预览83获取公共数据2025年人工智能指数报告第二章:技术性能概述本年度的人工指数报告技术性能章节全面概述了 2024 年人工智能领域的主要进展。开篇从宏观层面总结了人工智能技术发展动态,涵盖重大人工智能技术发布、人工智能能力现状以及关键趋势包括开源权重模型性能提升、前
199、沿模型性能趋同,以及中国大语言模型的质量改进。随后,本章节详细分析了各类人工智能能力的当前发展水平,涉及语言理解与生成、检索增强生成、编程、数学、推理、计算机视觉、语音以及代理型人工智能。今年新增了对机器人与自动驾驶汽车性能趋势的扩展分析。目录第二章预览842.开源模型迎头赶上。根据去年发布的人工智能指数报告,领先的开源模型曾大幅落后于闭源模型。而到 2024 年,这一差距已基本消失。具体来看,2024 年 1 月初,在 Chatbot Arena Leaderboard 上,顶尖闭源模型的性能优势为 8.0%;而到 2025 年2 月,这一差距已缩小至 1.7%。3.中美人工智能模型能力差距
200、缩小。2023 年,美国顶尖人工智能模型性能曾大幅领先中国同类产品,但这一态势现已改变。数据显示:截至 2023 年底,在 MMLU、MMMU、MATH 和 HumanEval 等比较基准中,中美模型的性能差距分别为 17.5、13.5、24.3 和 31.6 个百分点;而到 2024 年末,这些差距已大幅收窄至 0.3、8.1、1.6 和 3.7 个百分点。4.前沿的人工智能模型的性能趋于收敛。根据去年的人工智能指数,Chatbot Arena Leaderboard 上排名第一与第十的模型间Elo 分数差已从去年的 11.9%收窄至 2025 年初的 5.4%。同样,排名前两位的模型之间的
201、差距也从 2023 年的 4.9%缩小到 2024 年的 0.7%。人工智能领域的竞争日趋激烈,如今有越来越多的开发者推出了高质量的模型。5.新型推理范式,如测试时计算(test-time compute),显著提升模型性能。2024 年,OpenAI 推出的 o1、o3 等模型采用迭代式输出推理架构。这种测试时计算方法极大地提高了模型的性能,o1 在国际数学奥林匹克资格考试中获得了 74.4%的高分,GPT-4o 只有 9.3%。但该技术存在代价,o1 的运算成本激增至 GPT-4o 的 6 倍,推理速度则降低 30 倍。2025年人工智能指数报告目录第二章预览85第二章:技术性能章节要点1
202、.人工智能达成达成新比较基准的速度比以往任何时候都快。2023 年,研究人员推出了 MMMU、GPQA 和 SWE-bench 等多个具有挑战性的新比较基准,旨在测试日益强大的人工智能系统极限。到 2024 年,人工智能在这些比较基准上的表现取得显著突破:MMMU 和 GPQA 测试成绩分别提升 18.8 和 48.9 个百分点;更引人注目的是,在 SWE-bench 编程测试中,人工智能系统的解题能力从 2023 年仅能解决 4.4%的问题,跃升至 2024 年的 71.7%。2025年人工智能指数报告目录第二章预览866.更具挑战性的比较基准不断被提出。MMLU、GSM8K 和 Human
203、Eval 等传统人工智能比较基准已趋近饱和,加上 MMMU 和GPQA 等更新的更具挑战性的比较基准表现持续提升,促使研究人员探索更多针对领先人工智能系统的评价方法。其中值得注意的有人类最后的考试(Humanitys Last Exam),这是一项严格的学术测试,最先进的人工智能系统的得分率仅为 8.80%;前沿数学(Frontier Math),这是一项复杂的数学比较基准,人工智能系统仅解决了 2%的问题;“BigCodeBench”这是一项编码比较基准,人工智能系统的成功率仅为 35.5%,远低于人类 97%的水平。7.高质量人工智能视频生成模型实现重大突破。2024 年,多款能够根据文本
204、输入生成高清视频的先进人工智能模型相继问世,其中包括 OpenAI 的 SORA、Stable Video Diffusion 3D 和 4D、Meta 的 Movie Gen,以及谷歌 DeepMind 的 Veo 2。与 2023 年的视频生成模型相比,这些新一代模型在画质表现上取得显著提升。8.小型模型展现更强性能。2022 年,在 MMLU 比较基准中达到 60%以上分数的最小模型是拥有 5400 亿参数的 PaLM;而到2024 年,微软推出的 Phi-3-mini 仅用 38 亿参数就实现了相同水平相当于两年间参数规模缩减了 142 倍。9.复杂推理仍是人工智能面对的难题。尽管通过
205、思维链(Chain-of-Thought)等推理机制的引入显著提升了大语言模型的性能,这些系统仍无法可靠解决本可通过逻辑推理获得确定性答案的问题包括数学运算和任务规划等,尤其当问题规模超出其训练范围时。这一缺陷严重影响了人工智能系统的可信度,使其难以胜任高风险场景的应用需求。10.人工智能智能体展现初步潜力。2024 年推出的 RE-Bench 基准为评估 AI 智能体的复杂任务能力建立了严格标准。在短时任务(2 小时时限)中,顶级人工智能系统的得分可达人类专家的 4 倍;但随着时间延长至 32 小时,人类表现反超人工智能系统,得分达到 2:1 的优势。AI 智能体已在特定领域,如编写 Tri
206、ton Kernels,达到人类专业水平,且能更快、更低成本地产出结果。章节要点(续)第二章:技术性能本章节首先对 2024 年发布的重要模型进行了高度概述,并回顾了当前人工智能技术性能的现状。2025年人工智能指数报告目录第二章预览87第二章:技术性能2.1 2024 年人工智能技术发展概览2.1 2024年人工智能技术发展概览时间表:重要模型和数据集发布根据人工智能指数指导委员会的评选,以下是 2024 年最标志性的模型与数据集发布谷歌DeepMind字节跳动Anthropic日期 名称 类别 创建者 意义 图片大语言模型大语言模型大语言模型文生图数据集Stable LM 2Aya 数据集
207、Gemini 1.5 ProSDXL-LightningClaude 32024年1月19日2024年2月8日2024年2月15日2024年2月20日2024年3月4日Stability AI 的最新语言模型基于 Stable LM 改进,性能显著提升。该模型仅16亿参数,专为笔记本电脑和智能手机等便携设备高效运行而设计。作为 Cohere 的 Aya 计划的一部分,发布了一个包含 114 种语言 5.13 亿条提示完整比对的数据集。该论文及配套数据集标志着多语言指令微调领域的重大突破。Gemini 模型凭借 100 万词元的上下文窗口刷新行业基准,远超 GPT-4 Turbo 的 12.8
208、万词元限制。由 TikTok 开发方字节跳动推出,是当时最快的文生图系统之一,可在 1 秒内生成高质量合成图像。其速度通过渐进对抗蒸馏技术实现,而非传统的基于扩散的方法。Anthropic 最新的 大语言模型在几乎所有行 业 的 基 准 比 较 中 都 优 于 GPT-4 和Gemini,显著减少错误拒绝率并提高准确性。Stability AICohere for AI、北京智源研究院、Cohere、宾汉姆顿大学图 2.1.1资料来源:Wikipedia,2025图 2.1.2资料来源:Cohere,2025图 2.1.3资料来源:谷歌,2024图 2.1.4资料来源:Hugging Face
209、,2025图 2.1.5资料来源:Anthropic,20252025年人工智能指数报告目录第二章预览88第二章:技术性能2.1 2024 年人工智能技术发展概览Moirai与LOTSADBRXStable Audio 2Llama 3GPT-4oStability AIMetaOpenAI2024年5月13日2024年4月17日2024年4月2日2024年3月27日2024年3月19日2024年3月17日图 2.1.6资料来源:Inflection,2025图 2.1.7资料来源:Salesforce,2025图 2.1.8资料来源:Databricks,2025图 2.1.9资料来源:St
210、ability AI,2025图 2.1.10资料来源:Meta,2025图 2.1.11资料来源:OpenAI,2024Inflection 旗舰产品 PI 搭载该模型,仅用 GPT-4 40%的计算资源即实现同等性能。发布两周后,微软以 6.5 亿美元收购Inflection。Inflection AI大语言模型Inflection-2.5大语言模型大语言模型多模态文生曲/曲生曲模型/数据集SalesforceDatabricksSalesforce发布通用预测基础模型 Moirai,及跨 9 大领域、包含 270 亿观测值的时序数据集 LOTSA。D a t a b r i c k s
211、开 源 的 专 家 混 合 模型(MoE),性能超越 Mixtral 和 Grok 等同类小型MoE模型。该仅含解码器的Transformer 模型拥有1320亿参数(每输入激活368亿),训练数据达12万亿词元。最新版本的 Stable Audio 是 Stability 的 AI歌曲生成器,新增支持音频到音频功能。用户可以上传歌曲,并使用自然语言提示进行操作,实现定制歌曲。Llama 3 系列首发 80 亿及 700 亿参数文本模型,成为同规模性能最优模型之一。GPT-4o 是一种新型多模态模型,支持文本、音频、图像和视频任意组合的输入与输出,它对音频的响应时间短至320毫秒,与人类的反应
212、时间相当。2025年人工智能指数报告第二章:技术性能2.1 2024 年人工智能技术发展概览目录第二章预览892024年8月13日2024年8月12日2024年7月23日2024年6月17日2024年6月7日阿里巴巴开发的 Qwen2 系列包含基础模型和指令微调模型,在多项比较基准中性能媲美 Llama 3-70B 和 Mixtral-8x22B 等竞品。阿里巴巴跑道Runway梅塔Meta阿布扎比技术创新研究所文生文/文生图大语言模型大语言模型大语言模型Qwen2Runway Gen-3Llama 3.1405BFalcon MambaGrok-2文生视频/图生视频xAIRunway 升级版
213、视频生成模型为行业树立新标杆,特别擅长生成具有生动表情的逼真人像。Grok 由 xAI 开发,一个高级文本和图像生成模型,在图像创建、高级推理和问题解决方面表现突出。它的发布引人注目,尽管 xAI 在2023年3月才成立,但它的技术性能很快就能与领先机型相媲美。基于 Mamba 状态空间语言模型(State Space 语言 模型,SSLM)架构开发的 70 亿参数 Falcon 模型,作为少数由政府机构研发的人工智能模型之一,通过动态参数调整机制和输入信息过滤功能,在运算效率上显著超越传统基于 Transformer架构的同类模型。Meta发布迄今最大模型 Llama3.1 系列最终版,40
214、50亿参数,成为当时公开可用的最强基础模型,性能比肩众多闭源权重模型。图 2.1.12资料来源:Qwen,2024图 2.1.13资料来源:Runway,2024图 2.1.14资料来源:Meta,2024图 2.1.15资料来源:Hugging Face,2025图 2.1.16资料来源:xAI,20252025年人工智能指数报告第二章:技术性能2.1 2024 年人工智能技术发展概览目录第二章预览902024年9月17日2024年9月12日2024年9月11日2024年8月29日2024年8月22日2024年8月15日谷 歌 新 一 代 人 工 智 能 图 像 生 成 器 在GenAI-B
215、ench图像比较基准中创下最高Elo评分,为人工智能生成视觉效果设定了新的质量标准。谷歌 LabsAI21 Labs谷歌谷歌 LabsOpenAI英伟达视觉-语言语言/数学/生物文生播客工具大语言模型文生图Imagen 3Jamba 1.5SynthID v2NotebookLM播客工具o1-previewNVLM(D,H,X)首个融合了状态空间与 Transformer 架构的大语言模型,为基于文本的应用提供高质量的结果。这种混合方法在文本应用中实现高速响应与高质量输出的平衡。SynthIDv2是谷歌水印和识别软件SynthID的升级版本。新增支持人工智能生成的图像、视频、音频和文本内容,并
216、提供增强的跟踪和验证功能。继 Synthpod 之后,第二款端到端人工智能博客生成器问世并迅速走红。该工具因其便捷性,深受利用 NotebookLM 进行学习的学生群体以及使用人工智能生成的摘要进行工作听读的科技从业者欢迎。OpenAI的o系列首款模型,专为高级推理和处理复杂任务而设计。在数学、科学和编程等复杂任务上的推理能力显著超越GPT。英伟达发布了三个用于视觉语言任务的开放存取模型,在 OCRBench(光学字符识别)和 VQAv2(自然语言理解)上取得了最高分。图 2.1.22资料来源:Dai 等,2024图 2.1.21资料来源:OpenAI,2025图 2.1.20资料来源:谷歌,
217、2025图 2.1.19资料来源:谷歌,2025图 2.1.18资料来源:AI21,2025图 2.1.17资料来源:谷歌,20252025年人工智能指数报告第二章:技术性能2.1 2024 年人工智能技术发展概览目录第二章预览912024年12月11日2024年12月3日2024年10月28日2024年10月22日2024年10月16日2024年9月19日图 2.1.23资料来源:Qwen,2025图 2.1.24资料来源:Mistral,2025图 2.1.25资料来源:Anthropic,2025图 2.1.26资料来源:苹果,2025图 2.1.27资料来源:Amazon,2025图
218、2.1.28资料来源:谷歌,2025Gemini 升级版,新增计算机控制功能及图像/音频生成能力,速度较 1.5 Pro 提升 2倍,编程和图像分析性能显著增强。Nova Pro 是亚马逊网络服务 Nova 系列最强模型,擅长处理视觉与文本信息,在金融文档分析领域表现尤为突出。苹果整合 Image Playground(图像生成)、Genmoji(表情定制)、Siri 与 ChatGPT 联动等 AI 功能套件。Anthropic Computer Use 是 Claude 3.5 Sonnet 用户的一项突破性计算机控制功能,允许 Claude 在用户的计算机上实时移动光标、输入文本和自主完
219、成任务。Ministral 是包含 30 亿和 80 亿参数两款紧凑模型,在所有主流行业比较基准中超越同规模的 Gemma 和 Llama 模型。Qwen2.5 是中国电子商务巨头阿里巴巴推出的最新系列基础模型,包含高效小型模型及专为编程和数学优化的专用模型。阿里巴巴MistralAnthropic苹果亚马逊谷歌DeepMind大语言模型多模态iPhone 功能代理能力大语言模型大语言模型Qwen2.5MinistralAnthropic计算机控制苹果智能系统Nova ProGemini 22025年人工智能指数报告第二章:技术性能2.1 2024 年人工智能技术发展概览目录第二章预览92De
220、epSeek V3,该开源模型以显著少于顶尖模型的算力资源开发,在 MMLU 和GPQA 等比较基准中性能超越领先模型。DeepSeekOpenAICohereOpenAI文生视频数据集多模态大语言模型DeepSeek-V3o3(beta)Global MMLUSora2024年12月12日2024年12月13日2024年12月20日2024年12月27日OpenAI 最新前沿模型,面向人工智能研究人员安全测试发布,在 SWE 编程、竞赛数学、博士级科学和研究数学等比较基准中超越所有前代模型,并以 87.5%成绩创下ARC-AGI 基准新纪录。一个多语言评估集,包含 42 种语言的专业翻译 M
221、MLU 问题,旨在作为提供更全球化的人工智能比较比较基准。它评估 AI 在多种语言中的表现,同时解决了原始 MMLU 数据集中存在的西方偏见,据估计,该数据集中 28%的问题依赖于西方文化知识。OpenAI 备受期待的视频生成模型,可为ChatGPT Pro 用户生成 1080p/20 秒视频(Plus 用户 720p/5 秒)。自 2024 年初技术圈已流传演示版本,官方为提升模型安全性而延迟发布。图 2.1.29资料来源:OpenAI,2025图 2.1.30资料来源:Singh 等,2025图 2.1.31资料来源:VentureBeat,2025图 2.1.32资料来源:Dirox,2
222、0252025年人工智能指数报告第二章:技术性能2.1 2024 年人工智能技术发展概览目录第二章预览93人工智能性能状况本章节节人工智能指数呈现 2024 年人工智能领域的主要发展趋势和全方位高层视角览。总体回顾去年人工智能指数报告指出,人工智能已在多数任务中超越人类水平,仅剩竞赛级数学和视觉常识推理等少数例外。过去一年间,人工智能系统持续改进,在多个原属挑战性的比较基准中已实现对人类表现的超越。图 2.1.33 展示了人工智能系统相对于人类基线在 8 类比较基准(涵盖 11 项任务,如图像分类、基础阅读理解等)中的进展。1人工智能指数团队为每类任务选取一个代表性基准,今年新增 GPQA D
223、iamond 和 MMMU 等新发布基准,以展示人工智能在极端复杂认知任务中的突破。1、人工智能比较基准是一种用于评估人工智能系统在特定任务中性能的标准化测试。例如 ImageNet 作为经典基准,包含大量标注图像,人工智能系统的任务就是对这些图像进行准确分类。追踪比较基准进展是人工智能领域衡量系统发展的标准方法。2、在图 2.1.33 中,这些值经过缩放,以建立一个比较不同基准的标准指标体系。缩放函数经过校准,以将每年最佳模型的性能作为特定任务的人类基准的百分比来衡量。例如,值为 105%表示该模型的性能比人类基准高 5%。选定的人工智能指数技术性能比较基准与人类表现对比资料来源:2025
224、年人工智能指数|图表:2025 年人工智能指数报告图 2.1.332相对于人类基准的性能(%)20122013201420152016201720182019202020212022202320240%20%40%60%80%100%120%人类基准视觉推理(VQA)英语语言理解(SuperGLUE)竞赛级数学(MATH)多模态理解与推理(MMMU)图像分类(ImageNet Top-5)中等难度阅读理解(SQuAD 2.0)多任务语言理解(MMLU)博士级科学问题(GPQA Diamond)2025年人工智能指数报告第二章:技术性能2.1 2024 年人工智能技术发展概览目录第二章预览94截
225、至 2024 年,人类能力仍领先人工智能的任务领域已所剩无几。即便在这些领域,人工智能与人类之间的性能差距也在快速缩小。例如在竞赛级数学基准 MATH 上,最先进的人工智能系统目前领先人类表现 7.9 个百分点(2024 年初差距仅为 0.3 分)。3同样,针对复杂跨学科专家级问题的 MMMU 比较基准中,2024 年最佳模型 o3 得分 78.2%,仅比人类基准82.6%低 4.4 分。而 2023 年末谷歌 Gemini 在该测试中仅获59.4%,充分展示了 AI 在复杂认知任务上的快速进步闭源权重模型与开源权重模型的对比人工智能模型可以以不同的开放程度发布。如谷歌的Med-Gemini
226、等模型完全闭源,仅限开发者使用;OpenAI 的GPT-4o 和 Anthropic 的 Claude 3.5 等通过 API 提供有限公共访问,但未公开权重,因而无法独立修改或全面审查。相比之下,Meta 的 Llama 3.3 和 Stable Video 4D 等模型完全公开权重,允许任何人自由修改和使用。4关于模型开放性的争论呈现两极分化。开源权重支持者强调其打破市场垄断、促进创新、提升安全性与透明度等优势。例如 Meta 的 Llama 模型已衍生出 Meditron 医疗工具、军事应用及全球众多开源项目。反对者则警告开源权重可能助长虚假信息传播和生物武器研发等安全风险,因此需要采取
227、更加谨慎和可控的方法。去年的人工智能指数报告指出闭源与开源大语言模型存在显著性能差距。图 2.1.34 展示了顶尖闭源权重和开源权重大语言模型在 Chatbot Arena Leaderboard 上的性能趋势,该平台是用于大语言模型性能比较基准的公共平台。2024 年 1月顶尖闭源权重模型领先开源权重模型 8.0%,至 2025 年 2月该差距已缩小至 1.7%。这一趋势在其他问答比较基准中同样明显。2023 年闭源权重模型在 MMLU、HumanEval、MMMU 和 MATH 等主要基准上全面领先,持续优于开源权重模型,但到 2024 年差距大幅收窄(图 2.1.35)。例如,2023
228、年底,闭源权重模型在 MMLU 上领先开源权重模型 5.9 个百分点,但到 2024 年底,这一差距缩小到只有 0.1 个百分点。这一快速提升主要得益于 Meta 在夏季发布的 Llama 3.1,以及随后推出的其他高性能开源权重模型,如 DeepSeek 的 V3。3、本图中的比较基准数据以及本章节其他章节中的比较基准数据是在 2025 年 1 月初收集的。自人工智能指数发布以来,个别比较基准得分可能有所提高。4、在软件界,开放源代码 指的是根据许可证发布的软件许可证授予用户自由使用、研究、修改和分发软件及其源代码的权利。但开源权重模型未必完全开源,因其底层代码或训练数据通常未公开。2025
229、年人工智能指数报告第二章:技术性能2.1 2024 年人工智能技术发展概览目录第二章预览95LMSYS Chatbot Arena 中顶级闭源模型与开源模型的性能对比资料来源:LMSYS,2025|图表:2025 年人工智能指数报告在选定的比较基准中,顶级闭源模型与开源模型的性能对比资料来源:2025 年人工智能指数|图表:2025 年人工智能指数报告图 2.1.34得分图 2.1.35平均准确率准确率总体准确率Pass12024-012025-022025-012024-122024-112024-102024-092024-082024-072024-062024-052024-04202
230、4-032024-021,1001,1501,2001,2501,3001,3501,4002022202320240%20%40%60%80%100%2022202320240%20%40%60%80%100%2022202320240%20%40%60%80%100%2022202320240%20%40%60%80%100%开源闭源通用语言:MMLU通用推理:MMMU数学推理:MATH编程:HumanEval1,385,闭源1,362,开源2025年人工智能指数报告目录第二章预览96而到 2024 年底,这些差距已大幅缩小至 0.3、8.1、1.6 和 3.7 个百分点。DeepSeek
231、-R1 的发布引发了广泛关注,除此之外,另一原因在于该公司称其成果仅需通常训练此类模型所需硬件资源的一小部分即可实现。除了对美国股市造成影响外,DeepSeek-R1 的发布还引发了对美国半导体出口管制有效性的质疑。第二章:技术性能2.1 2024 年人工智能技术发展概览美国与中国技术性能对比美国在人工智能研究和模型开发领域长期占据主导地位,中国则稳居第二。然而,最新证据表明,这一格局正在快速变化,中国开发的模型正逐步赶超美国同行。2023 年,美国领先模型的性能显著优于中国模型。在LMSYS Chatbot Arena 平台上,2024 年 1 月,美国顶尖模型的表现比中国最佳模型高出 9.
232、3%。但到 2025 年 2 月,这一差距已缩小至仅 1.70%(图 2.1.36)。2023 年底,在 MMLU、MMMU、MATH 和 HumanEval 等比较基准中,中美模型的性能差距分别为 17.5、13.5、24.3 和 31.6 个百分点(图 2.1.37)。在 LMSYS Chatbot Arena 美国和中国的模型的性能对比资料来源:LMSYS,2025|图表:2025 年人工智能指数报告图 2.1.36得分2024-012024-022024-032024-042024-052024-062024-072024-082024-092024-102024-112024-121
233、,1001,1501,2001,2501,3001,3501,4001,385,美国1,362,中国2025年人工智能指数报告第二章:技术性能2.1 2024 年人工智能技术发展概览目录第二章预览97美国与中国的顶级模型在选定比较基准上的对比资料来源:2025 年人工智能指数|图表:2025 年人工智能指数报告图 2.1.37平均准确率准确率总体准确率Pass12022202320240%20%40%60%80%100%2022202320240%20%40%60%80%100%2022202320240%20%40%60%80%100%2022202320240%20%40%60%80%10
234、0%数学推理:MATH 美国中国通用语言:MMLU通用推理:MMMU编程:HumanEval2025年人工智能指数报告第二章:技术性能2.1 2024 年人工智能技术发展概览目录第二章预览98小型模型性能提升近年来,人工智能的进步主要依赖于规模化(scaling)即通过增加模型规模和训练数据来提升性能。尽管规模化显著增强了人工智能能力,但近期一个显著趋势是高性能小型模型的涌现。图 2.1.38 展示了在 MMLU(一种广泛使用的语言模型比较基准)中得分超过 60%的最小模型规模变化。作为背景参考,早期支持 ChatGPT 的模型(如 GPT-3.6 Turbo)在 MMLU上的得分约为 70%
235、。2022 年,达到 MMLU 60%分数的最小模型是拥有 5400 亿参数的 PaLM;而到 2024 年,微软的Phi-3 Mini 仅以 38 亿参数就达到了相同阈值,标志着两年间模型规模缩小了 142 倍。2024 年是小型人工智能模型的突破之年。几乎所有主流人工智能开发商都发布了高性能紧凑模型,包括 GPT-40 mini、oI-mini、Gemini 2.0 Flash、Llama 3.1 8B 和 Mistral Small 3.5。5 小型模型的崛起具有重要意义,其原因有以下几点:它体现了算法效率的提升,使开发者能够以更少的数据和更低的训练成本实现更高性能。这些效率提升与日益增
236、长的数据集结合,可能催生性能更优的模型。此外,小型模型的推理速度通常更快、成本更低,其出现也降低了企业和开发者将 AI 整合到业务中的门槛。20222024 年在 MMLU 的评估中得分超过 60%的最小型人工智能模型资料来源:Abdin 等,2024|图表:2025 年人工智能指数报告5.这些仅是 2024 年发布的少量小型模型。图 2.1.38参数数量(对数刻度)PaLMLLaMA-65BLlama 2 34BMistral 7BPhi-3-mini2022-May2022-Sep2023-Jan2023-May2023-Sep2024-Jan2024-May10B100B2025年人工智
237、能指数报告第二章:技术性能2.1 2024 年人工智能技术发展概览目录第二章预览99前沿模型性能趋同近年来,人工智能前沿模型的性能逐渐趋同,多家供应商现已能提供高性能模型。这一现象标志着自 2022 年底以来的转变当时 ChatGPT 的发布(被广泛视为 AI 进入公众视野的突破性事件)正值 OpenAI 和谷歌两大巨头主导市场的时期。OpenAI(成立于 2015 年)于 2020 年发布 GPT-3,而谷歌则在 2022 年推出了 PaLM 和 Chinchilla 等模型。此后,新竞争者陆续入场,包括 Meta 的 Llama 系列、Anthropic 的 Claude、High-Fly
238、er 的 DeepSeek、Mistral 的Le Chat 以及 xAI 的 Grok。随着竞争加剧,模型性能差距日益缩小(图 2.1.39)。根据去年的人工智能指数报告,在广泛使用的人工智能排名平台 Chatbot Arena Leaderboard 上,第一名与第十名模型的性能差距为 11.9%;而到 2025 年初,这一差距已缩小至 5.4%。同样,前两名模型的差异从 2023 年的 4.9%降至 2024 年的仅 0.7%。人工智能领域竞争日趋激烈,印证了2023 年的预测:人工智能企业缺乏抵御竞争对手的技术护城河。选定的供应商在 LMSYS Chatbot Arena 的顶级模型表
239、现资料来源:LMSYS,2025|图表:2025 年人工智能指数报告图 2.1.39得分2024.012024.022024.032024.042024.052024.062024.072024.082024.092024.102024.112024.122025.012025.021,0501,1001,1501,2001,2501,3001,3501,4001,252,Mistral AI1,269,Meta1,284,Anthropic1,288,xAI1,385,谷歌1,366,OpenAI1,362,DeepSeek2025年人工智能指数报告第二章:技术性能2.1 2024 年人工智
240、能技术发展概览目录第二章预览100人工智能基准比较多年来,人工智能指数报告一直通过比较基准来追踪人工智能系统的技术进展。尽管比较基准仍是关键工具,但必须认识到其局限性,并引导社区采用更有效的基准比较实践。如去年人工智能报告所述,许多主流 AI 比较基准正趋于饱和。随着人工智能系统快速发展,即使新设计的更具挑战性的测试,其适用周期往往仅能维持数年。部分专家认为,学术比较基准的新时代可能即将结束。要真正评估人工智能系统的能力,需要更严格、更全面的评估方法。此外,当模型开发者发布新模型时,他们通常会报告比较基准分数,而这些分数通常会被更广泛的社区所接受。然而,这种方法也有缺陷。在某些情况下,公司会使
241、用非标准的提示技术,从而使模型间的比较变得不可靠。例如,谷歌在推出 Gemini Ultra 时,报告的 MMLU 比较基准分数使用了思维链提示技术,而其他开发人员并不使用。第三方研究也发现,部分模型在独立测试中的表现低于开发者最初报告的结果。某些关键智能维度难以通过比较基准衡量。比较基准对于评估某些智能能力(如视觉和语言)是有效的,因为任务是离散的-例如正确地对图像进行分类或回答选择题。然而,但在多智能体系统、人机交互等领域则面临挑战,主因包括人类行为的多变性和答案的多样性。制定比较基准更具挑战性。此外,人工智能的发展通常是在旨在衡量人类表现的竞赛中进行评估的,例如游戏以及对人类或机器提出的
242、其他公开挑战。国际象棋和扑克等游戏需要高度的智力,几十年来,人工智能系统不断改进,已经能够在越来越复杂的游戏中击败最优秀的人类。具有物理组件或团队能力的游戏也是衡量人工智能进步的好方法,机器人界已经开展了各种挑战性的游戏竞赛,例如机器人足球赛(RoboCup)。人工智能的另一个竞赛领域涉及协调和团队合作,多智能体系统在分布式推理方面表现出了进步。人工智能界长期以来一直在开发比较基准。人工智能之所以能够取得重大进展,是因为不同方法和手段都可以根据比较基准所代表的同一黄金标准进行评估。在机器学习领域,不同领域、不同类型数据的比较基准推动了重大进展。许多比较基准由第三方自动评估,不会向人工智能开发人
243、员公开测试数据,这使得评估结果更加可靠。最近一个有趣的趋势是,各种比较基准任务都由同一个模型来处理。例如,自然语言多年来一直是作为一系列独立任务(如理解、生成、问题解答)来处理的,每个任务都有自己的模型和比较基准。同样,语音任务也与语言理解或生成任务分开进行比较基准。如今,同一个模型可以处理所有语言任务,在某些情况下,一个模型可以处理语言、图像和多模态任务。这是人工智能在整合原本独立的智能任务和能力方面取得的一项非常重要的进步。人工智能系统在比较基准中表现出持续超越力,其快速进步或许最能从人工智能长期面临的著名挑战图灵测试的重要性日益下降中得到体现。该测试最初由艾伦 图灵在 1950 年的论文
244、计算机器与智能(“Computing Machinery and Intelligence”)中提出,用于评估机器表现出类似人类智能的能力。在测试中,人类评判者与机器和人类进行基于文本的对话;如果评判者无法可靠地区分它们,则认为机器通过了图灵测试。最新证据表明,大语言模型的进步已使人们难以区分顶尖语言模型与人类的差异,这标志着现代人工智能模型能够通过图灵测试。尽管该测试的优缺点长期存在争议,它仍是衡量机器智能的重要历史文化基准。对其相关性的质疑,凸显了近年来大语言模型的巨大进步以及人们对有效计算机科学2025年人工智能指数报告目录第二章预览101比较基准和人工智能测量不断发展的看法。在机器人领
245、域,出现了许多应对与物理世界互动和推理自然规律的模型。许多机器人比较基准(如 ARMBench)侧重于感知任务。然而,其他比较基准(如 VIMA-Bench)则评估机器人在模拟环境中的性能,这些环境同时融合了感知、通信和深度学习。比较基准也会受到污染,即大语言模型遇到其训练数据中出现过的测试题。Scale 最近的一项研究发现,许多大语言模型在广泛使用的数学比较基准 GSM8K 上的表现存在严重污染。一些研究人员试图通过引入 LiveBench 等比较基准来应对这些污染问题,这些比较基准会定期更新来自陌生来源的新问题,这些问题不太可能出现在大语言模型的训练数据中。最后,研究表明,许多比较基准的构
246、建存在缺陷。在 BetterBench 中,研究人员系统地分析了 24 个著名的比较比较基准,并发现了系统性缺陷:14 个未报告统计学意义,17 个缺乏结果复制脚本,大多数文档不完善,限制了其可重复性和评估模型的有效性。尽管广泛使用,但 MMLU 等比较基准对质量标准的遵守程度较低,而 GPQA 等比较基准的表现则明显更好。为了解决这些问题,该论文提出了一个涵盖比较基准开发所有阶段(设计、实施、文档和维护)的 46 项标准框架(图 2.1.40)。该论文还引入了一个公开可访问的存储库,以实现持续更新并提高比较基准的可比性。图 2.1.41 来自 BetterBench,评估了许多著名比较基准的
247、可用性和设计。这些发现强调了标准化比较基准的必要性,以确保人工智能评估的可靠性,并防止对模型性能做出误导性的结论。比较基准有可能影响政策决策和组织内的采购决策,凸显了评估的一致性和严谨性的重要性。比较基准生命周期的五个阶段资料来源:Reuel 等,2024图 2.1.40设计(DESIGN):明确比较基准的目的、范围与结构;确定任务、数据集及评估标实施(IMPLEMENTATION):通过收集、处理与标注数据集构建比较基准;防范数据污染与可操纵性文档编制(DOCUMENTATION)详细说明基准测试的任务、数据集与评估指标;解释设计决策与局限性;提供比较基准使用资源维护(MAINTENANCE
248、)处理问题并整合反馈;评估比较基准的相关性退役(RETIREMENT)向利益相关方通报退役计划;归档比较基准数据、代码及文档,并标记为“已退役”12345第二章:技术性能2.1 2024 年人工智能技术发展概览2025年人工智能指数报告目录第二章预览102图 2.1.41在本章节中,人工智能指数继续报告比较基准,并认可其在跟踪人工智能技术进步方面的重要性。按照惯例,该指数从leaderboard、Papers With Code 和 RankedAGI 等公共存储库以及公司论文、博客文章和产品发布中获取比较基准分数。该指数基于以下假设:公司报告的分数准确且真实。本节中的比较基准分数为 2025
249、 年 2 月中旬的最新数据。但是,自人工智能指数发布以来,可能已经发布了超越当前最先进分数的新模型。在选定的比较基准中,设计与可用性得分对比资料来源:Reuel 等,2024|图表:2025 年人工智能指数报告BBQBOLDMMLUARC-ChallengeWinoGrandeGSM8KHellaSwagAgentBenchGPQABIG-benchProcgenWordcraftRL UnpluggedFinRL-MetaSafeBenchALE05101520051015Foundation modelsNon-foundation modelsMedMNIST v2TruthfulQAM
250、LCommons AI Safety v0.5MachiavelliPDEBenchDecodingTrustHumanEval可用性得分设计得分第二章:技术性能2.1 2024 年人工智能技术发展概览2025年人工智能指数报告第二章:技术性能2.2 语言目录第二章预览1032.2 语言自然语言处理(NLP)使计算机能够理解、解释、生成和转换文本。当前最先进的模型,如 OpenAI 的 GPT-4o、Anthropic 的 Claude 3.5 和谷歌的 Gemini,能够生成流畅连贯的文本,并展现出高水平的语言理解能力(图 2.2.1)。与早期版本仅限于文本输入和输出不同,新一代语言模型现已
251、能够在更广泛的输入和输出模态中进行推理,包括音频、图像和面向目标的任务(图 2.2.2)。图 2.2.1图 2.2.2Gemini 2.0 在代理工作流中的应用资料来源:2025 年人工智能指数问:斯坦福 HAI 是什么?答:斯坦福 HAI(斯坦福以人为本人工智能研究所)是斯坦福大学的一个研究机构,致力于推动人工智能发展以改善人类生活。该机构促进人工智能研究人员、社会科学家、政策制定者和行业领袖之间的跨学科合作,确保人工智能的开发和应用符合人类价值观和社会需求。斯坦福 HAI 的核心领域包括:研究:开展关于人工智能对社会、伦理及治理影响的课题。教育:提供人工智能相关的课程、奖学金和培训项目。政
252、策与推广:与政策制定者和国际组织合作,推动负责任的人工智能法规。倡议活动:举办研讨会、发布报告(如人工智能指数报告),并开发工具(如全球 AI 活力指数工具)。该研究所在全球人工智能讨论中发挥着领导作用,旨在让人工智能广泛惠及人类,同时应对其潜在风险和挑战。更多信息可访问斯坦福 HAI 官网。GPT-4o 的示例输出资料来源:2025 年人工智能指数目录第二章预览1042025年人工智能指数报告第二章:技术性能2.2 语言语言理解英语语言理解对人工智能系统提出了多方面的挑战,包括阅读理解与逻辑推理等任务。MMLU:大规模多任务语言理解大规模多任务语言理解(MMLU)比较基准通过零样本或少样本场
253、景评估模型在 57 个学科中的表现,涵盖人文、STEM(科学、技术、工程、数学)及社会科学等领域(图 2.2.3)。MMLU已成为评估大语言模型能力的核心比较基准:GPT-4o、Claude 3.5、Gemini 2.0 等前沿模型均基于此测试进行了评估。MMLU 比较基准由加州大学伯克利分校、哥伦比亚大学、芝加哥大学和伊利诺伊大学厄巴纳-香槟分校的研究团队于 2020年创建。截至 2024 年 9 月,MMLU 最高分为 92.3%,由 OpenAI的 oi-preview 模型取得。作为对比,2023 年 3 月发布的GPT-4 得 分 为 86.4%。值 得 注 意 的 是,早 期 测
254、试 模 型RoBERTa 在 2019 年仅获得 27.9%的分数(图 2.2.4)。这一最新成果标志着五年间性能提升了 64.4 个百分点。MMLU:平均准确率资料来源:Papers With Code,2025|图表:2025 年人工智能指数报告MMLU 示例题目来源:Hendrycks 等,2021政府限制和监管垄断的原因之一是(A)生产者剩余减少,消费者剩余增加。(B)垄断价格保证了生产效率,但社会失去了配置效率。(C)垄断企业不会进行重要的研发活动。(D)由于价格上升和产量下降,消费者剩余减少。微观经济学图 2.2.3图 2.2.4平均准确率201920202021202220232
255、0240%10%20%30%40%50%60%70%80%90%100%92.30%89.8%,人类基准目录第二章预览1052025年人工智能指数报告第二章:技术性能2.2 语言尽管MMLU备受关注,但它也面临显著批评。有观点认为,该比较基准包含错误或过于简单的问题,可能无法有效挑战日益先进的系统。2024 年,多伦多大学、滑铁卢大学和卡内基梅隆大学的研究团队推出了 MMLU-Pro,这是 MMLU 的一个更具挑战性的版本。该版本剔除了噪声问题和琐碎问题,扩展了复杂题目,并增加了模型的选项数量。图 2.2.5 展示了MMLU-Pro 的性能趋势,其中 DeepSeek-R1 以 84.0%的得
256、分位居榜首。此外,测试环境也引发了担忧。开发者有时会使用非标准的提示技术报告 MMLU 分数,这些技术可能提升性能,但会导致误导性比较。此外,证据表明,开发者公开报告的分数与学术研究者后续评估的结果可能存在差异,有时甚至相差五个百分点。因此,MMLU 的性能结果需谨慎解读。生成任务在生成任务中,人工智能模型需测试其生成流畅且实用的语言回答的能力。Chatbot Arena Leaderboard随着高性能大语言模型的崛起,了解公众更偏好哪些模型变得愈发重要。LMSYS 于 2023 年推出的 Chatbot Arena Leaderboard,其是首个全面评估公众对大语言模型偏好的平台之一。该
257、 leaderboard 允许用户向两个匿名模型提问,并投票选出更优的回答(图 2.2.6)。截至 2025 年初,该平台已累计超过 100 万次投票,用户将谷歌的 Gemini 系列模型评为社区最受欢迎的选择。MMLU-Pro:整体正确率资料来源:MMLU-Pro Leaderboard,2025|图表:2025 年人工智能指数报告图 2.2.5整体正确率71.59%71.85%72.55%73.11%73.30%74.68%75.46%75.70%75.87%76.24%77.64%77.90%78.00%80.30%84.00%Qwen2.5-72BGrok-2-miniGPT-4o(2
258、024-05-13)Athene-V2-Chat(0-shot)Llama-3.1-405B-InstructGPT-4o(2024-08-06)Grok-2MiniMax-Text-01DeepSeek-V3Gemini-2.0-Flash-expClaude-3.5-Sonnet(2024-10-22)GPT-4o(2024-11-20)Claude-3.5-Sonnet(2024-06-20)GPT-o1-miniDeepSeek-R10%20%40%60%80%100%目录第二章预览1062025年人工智能指数报告第二章:技术性能2.2 语言图 2.2.7 展 示 了 截 至 2025
259、 年 1 月 Chatbot Arena Leaderboard 上前 10 名模型的概况。值得注意的是,顶尖模型之间的性能差距逐渐缩小。根据 2024 年人工智能指数,2023年榜首与第 10 名模型的 Arena 评分差异为 11.9%,6而到2025 年,这一差距已降至 5.4%。这一趋同现象表明,近期大语言模型的质量正趋于均衡。Chatbot Arena Leaderboard 上的模型回答示例来源:Chatbot Arena Leaderboard,2024LMSYS Chatbot Arena 大语言模型 Elo 评分(总体)来源:LMSYS,2025|图表::2025 年人工智能
260、指数报告图 2.2.6图 2.2.76、Arena 评分是 Arenaleaderboard 用于比较模型性能的相对排名系统。评分方法详见 Chatbot Arena Leaderboard 的文章。相对于人类基准的性能(%)Gemini-1.5-Pro-002Step-2-16K-Expo1-miniDeepSeek-V3o1-previewo1-2024-12-17Gemini-2.0-Flash-ExpGemini-2.0-Flash-Thinking-Exp-1219ChatGPT-4o-latest(2024-11-20)Gemini-Exp-12061,3001,3101,3201
261、,3301,3401,3501,3601,3701,380目录第二章预览1072025年人工智能指数报告第二章:技术性能2.2 语言Arena-Hard-Auto随着人工智能能力快速提升,开发新比较基准面临的主要挑战在于,人工创建高质量基准成本高昂且耗时。为此,加州大学伯克利分校的研究团队今年推出了 BenchBuilder。该工具利用大语言模型构建自动化流程,从大规模众包数据集中筛选高质量开放式提示,可在无需大量人工干预的情况下更新或创建新基准。LMSYS 团队使用该工具开发了Arena-Hard-Auto,这是一个专为评估指令调优大语言模型设计的基准(图 2.2.8)。Arena-Hard
262、-Auto 包含 500 个来自 Chatbot Arena 的高难度用户查询,并以 GPT-4 Turbo作为评判模型,将其响应与基线模型(GPT-4-0314)对比。截至 2024 年 11 月,Arena-Hard-Autoleaderboard 上得分最高的模型为 o1-mini(92.0)、o1-preview(90.4)和Claude-3.5-Sonnet(85.2)(图 2.2.9)。该基准还设有风格控制 leaderboard,用于评估模型回答风格对用户偏好的潜在影响。风格 leaderboard 的首位是 Anthropic 公司 2024 年 11月 发 布 的 Claud
263、e Sonnet 3.5 变 体(图 2.2.10)。然 而,Arena-Hard-Auto等自动化基准因问题分布不均而受到批评,例如超过 50%的问题仅聚焦编程与调试,这限制了对大语言模型能力的全面评估。未修改的 Arena-Hard-Auto资料来源:LMSYS,2025|图表:2025 年人工智能指数报告带风格控制的 Arena-Hard-Auto资料来源:LMSYS,2025|图表:2025 年人工智能指数报告图 2.2.9图 2.2.10gpt-4-0125-previewgpt-4o-2024-05-13claude-3-5-sonnet-2024-06-20yi-lightnin
264、ggpt-4-turbo-2024-04-09llama-3.1-nemotron-70b-instructathene-v2-chatclaude-3-5-sonnet-2024-10-22o1-preview-2024-09-12o1-mini-2024-09-1202040608010078.0079.2079.3081.5082.6084.9085.0085.2090.4092.00分数模型模型分数gpt-4o-2024-05-13llama-3.1-nemotron-70b-instructgpt-4o-2024-08-06athene-v2-chatgpt-4-0125-previ
265、ewgpt-4-turbo-2024-04-09o1-mini-2024-09-12o1-preview-2024-09-12claude-3-5-sonnet-2024-06-20claude-3-5-sonnet-2024-10-2202040608010069.9071.0071.1072.1073.6074.3079.3081.7082.2086.40Chatbot Arena Leaderboard 上的模型回答示例来源:Chatbot Arena Leaderboard,2024自动评估可配置支持自动评估Arena-Hard-Auto固定预设不支持人工手动整理自动评估MMLU,MA
266、TH,GPOA固定预设支持人工手动整理自动评估MT-Bench,AlpacaEval固定预设人工手动整理不支持自动评估Live Bench,Livecode Bench用户群体支持众包用户群体共同整理人工评估chatbot Arena评估方式是否支持开放式问题提示语整理方式提示语来源图 2.2.8目录第二章预览1082025年人工智能指数报告第二章:技术性能2.2 语言WildBenchWildBench 由 Allen Institute for AI 和华盛顿大学研究人员开发,是 2024 年推出的一个比较基准,用于在具有挑战性的现实世界查询中对大语言模型进行评估。创建者强调了现有大语言模
267、型评估的几个局限性。例如,MMLU 仅关注学术问题,未涵盖开放式现实场景;而 LMSYS 等基准虽涉及现实挑战,但过度依赖人工审核,且缺乏对全部模型使用统一数据集的评估一致性(图 2.2.11)WildBench 的评估框架来源:Lin 等,2024图 2.2.11目录第二章预览1092025年人工智能指数报告第二章:技术性能2.2 语言WildBench通过自动化评估框架解决了现有基准的缺陷,其问题集涵盖语言模型可能遇到的多样化真实场景(“野外”问题)(图 2.2.11)。这些问题从超过 100 万条人机对话记录中精选而出,并定期更新以保证时效性。开发者还维护实时 leaderboard 以
268、追踪模型性能变化。目前,WildBench 表现最佳的模型为 GPT-4o,其 WB-Elo 评分为 1227.1,以微弱 优 势 领 先 第 二 名 Claude 3.5 Sonnet(1215.4 分)(图2.2.12)。WildBench:WB-Elo(长度控制)资料来源:WildBench Leaderboard,2025|图表:2025 年人工智能指数报告图 2.2.12WB-Elo 评分(l 长度控制)模型1,1761,1791,1811,1821,1851,1881,1921,1961,1971,1991,2091,2101,2151,2151,227Gemma-2-27B-it
269、Nemotron-4-340B-InstAthene-70BYi-LargeDeepSeek-V2-CoderLlama-3-70B-InstructGemini 1.5 FlashClaude 3 Opusgpt-4-0125-previewDeepSeek-V2-ChatYi-Large-Previewgpt-4-turbo-2024-04-09Gemini 1.5 ProClaude 3.5 Sonnetgpt-4o-2024-05-1302004006008001,0001,200目录第二章预览1102025年人工智能指数报告第二章:技术性能2.2 语言重点:o1,o3,与推理时间计算
270、OpenAI 最新发布的 o1 和 o3 模型标志着人工智能模型在 思考 能力和高级推理表现上的范式转变。o1 和 o3在编程、量子物理和逻辑等多样化任务中展现出卓越性能,其高级推理能力归功于链式思考过程和答案迭代校验机制。这意味着模型会将复杂问题分解为更小的可执行步骤,从而提升输出质量。例如,在解码乱序文本任务中,o1 会展示比 GPT-4 更详尽的思维推理过程(图 2.2.15)。这种人工智能系统在回答过程中迭代优化的机制被称为推理时间计算。o1 的链式思考过程资料来源:OpenAI,2024GPT-4o用户输入:oyfjdnisdr rtqwainr acxz mynzbhhx-Thin
271、k step by step使用上述方法解码以下密文:oyekajjzdf aaptcg suaokybhai ouow aqht my-nznvaatzacdfoulxxzGPT-4o图 2.2.13解码步骤说明:配对字母:将密文中的字母两两分组(例如 oy fj dn is dr)。字母转数字:将每个字母转换为字母表中的对应序号(A=1,B=2,Z=26)。求和:计算每对字母的数字之和。求平均值:将和除以 2,得到平均值。数字转字母:将平均值转换为对应的字母(1=A,2=B,26=Z)。应用示例:以第一对字母 oy 为例:o=15,y=25 和=15+25=40 平均值=40/2=20 字
272、母=T重点:o1,o3,与推理时间计算(续)图 2.2.14 对比了 GPT-4o 与 o1、o1-preview 在多项比较基准中的表现。7例如,o1 在 MMLU 上以 2.8 分优势超越 GPT-4o,在 MATH 测试中领先 34.5 分,在GPQA Diamond 中高出 26.7 分,在极难的 AIME 2024数学竞赛中更是领先 65.1 分。而 o3 则展现出当前最复杂的推理能力,在 ARC-AGI 机器智能比较基准中以 87.5%的准确率刷新了此前 55.5%的纪录。然而,这些模型的强大推理能力伴随着显著的成本提升包括财务成本和延迟成本。例如,GPT-4o 的输入/输出词元成
273、本分别为每百万 2.5 美元和 10 美元,而 o1则高达 15 美元和 60 美元。8此外,o1 的首词元延迟达29.7 秒,是 GPT-4o(0.72 秒)的 40 倍。o3 的延迟虽未公开,但推测更高。o1 与 o3 的强劲能力将持续推动高级人工智能系统和智能体的发展。OpenAI 于 2024 年 9 月 12 日向 ChatGPT Plus 和Teams 用户发布 o1-preview,并于 2024 年 12 月 5 日推出 o1 正式版(同时发布月费 200 美元的 ChatGPT Pro 订阅服务以获取 o1 访问权限)。7、o1-preview 是 o1 的早期预览版本,在全
274、面发布前提供有限访问。8、o3 目前仅通过 Open 人工智能安全测试计划向特定研究人员和开发者开放。目录第二章预览1112025年人工智能指数报告第二章:技术性能2.2 语言GPT-4o、o1-preview、o1 在选定的比较基准上对比资料来源:OpenAI,2024图 2.2.1488.00%90.80%92.30%GPT-4oo1o1-preview0%20%40%60%80%100%60.30%85.50%94.80%GPT-4oo1-previewo10%20%40%60%80%100%50.60%73.30%77.30%GPT-4oo1-previewo10%20%40%60%8
275、0%100%9.30%44.60%74.40%GPT-4oo1-previewo10%20%40%60%80%100%Pass1Pass1Pass1Pass1MMLUMATHGPQA DiamondAIME 2024目录第二章预览1122025年人工智能指数报告第二章:技术性能2.2 语言MixEvalMixEval 由新加坡国立大学、卡内基梅隆大学和 Allen Institute for AI 的研究团队联合推出,是解决当前大语言模型评估领域局限性的一项新比较基准。MixEval 结合了 Chatbot Arena 中的综合性真实用户查询与 MMLU 基于标准答案的题目(图 2.2.15)
276、,包含多个评估套件,其中 MixEval-Hard 是更具挑战性的版本,聚焦高难度查询,成为评估模型处理复杂问题的有效工具。在 MixEval-Hard 比较基准中,得分最高的模型是 OpenAI的 o1-preview(72.0 分),其次是 Claude 3.5 Sonnet-0620 模型(68.1 分),第三名为 Llama-3-405B-Instruct 模型(66.2分)(图 2.2.16)。这三款模型均发布于 2024 年。聊天模型在 MixEval-Hard 的得分资料来源:MixEval Leaderboard,2025|图表:2025 年人工智能指数报告图 2.2.16图
277、2.2.15可用性得分模型MixEval 的评估框架资料来源:Ni 等,202452.9054.0055.8055.9056.8057.0057.4058.3058.7062.6063.5064.7066.2068.1072.00Reka Core-20240415Claude 3 SonnetQwen-Max-0428LLaMA-3-70B-InstructYi-Large-previewSpark4.0Mistral Large 2Gemini 1.5 Pro-API-0514Gemini 1.5 Pro-API-0409GPT-4-Turbo-2024-04-09Claude 3 Opu
278、sGPT-4o-2024-05-13LLaMA-3.1-405B-InstructClaude 3.5 Sonnet-0620OpenAI o1-preview010203040506070目录第二章预览1132025年人工智能指数报告Ragnarok(RAG 竞技场)和 CRAG(综合 RAG 基准)。此外,针对特定场景的专项基准(如金融问答基准 FinanceBench)也已问世。Berkeley Function Calling LeaderboardBerkeley Function Calling Leaderboard 评估大语言模型准确调用函数或工具的能力。评估套件包括 2,00
279、0 多个问题-函数-答案对,涉及多种编程语言(如 Python、Java、JavaScript 和 REST API)和多个测试领域(图 2.2.17)。第二章:技术性能2.2 语言RAG:检索增强生成检索增强生成(RAG)是在大语言模型中测试的一种越来越常见的能力。这种方法将大语言模型与检索机制整合在一起,以增强其响应生成能力。模型首先从文件或文档中检索相关相关信息,然后根据检索到的内容生成适合用户查询的响应。RAG 的用例多种多样,包括从大型数据库中回答精确问题,以及利用公司文件信息解决客户查询。近年来,RAG 备受研究机构和企业关注。例如,Anthropic于 2024 年 9 月推出“
280、上下文检索”技术,显著提升 RAG 模型的检索能力。2024 年还发布了多项 RAG 评估基准,如Berkeley Function Calling Leaderboard 数据构成资料来源:Yan 等,20249、在这种情况下:AST(抽象语法树)指的是涉及在结构层面分析或处理代码的任务,将代码解析为一棵语法元素树。标有 AST 评估可能会测试人工智能模型以结构化方式理解、生成或处理代码的能力。Exec(基于执行)表示需要实际执行函数调用以验证正确性的任务。标有 Exec 的评估可能会评估人工智能模型是否能够正确调用和执行函数,确保产生预期的输出结果。图 2.2.159目录第二章预览1142
281、025年人工智能指数报告第二章:技术性能2.2 语言在 Berkeley Function Calling Leaderboard 上,表现最佳的模型是 watt-tool-70b,这是基于 Llama-3.3-70B-In-struct 专门针对函数调用任务微调的变体,其整体准确率达到 74.24%(图 2.2.18)。排名第二的是 GPT-4o 的 11 月版本,得分为 72.08。2024 年间,模型在该比较基准中的性能显著提升,年底顶尖模型的准确率较年初提高了 50 个百分点。伯克利函数调用:整体准确率资料来源:Berkeley Function-Calling Leaderboard
282、,2025|图表:2025 年人工智能指数报告图 2.2.18整体正确率模型52.9054.0055.8055.9056.8057.0057.4058.3058.7062.6063.5064.7066.2068.1072.00Reka Core-20240415Claude 3 SonnetQwen-Max-0428LLaMA-3-70B-InstructYi-Large-previewSpark4.0Mistral Large 2Gemini 1.5 Pro-API-0514Gemini 1.5 Pro-API-0409GPT-4-Turbo-2024-04-09Claude 3 OpusG
283、PT-4o-2024-05-13LLaMA-3.1-405B-InstructClaude 3.5 Sonnet-0620OpenAI o1-preview010203040506070目录第二章预览1152025年人工智能指数报告第二章:技术性能2.2 语言MTEB:大规模文本嵌入式比较基准大规模文本嵌入式比较基准(MTEB)平台由 Hugging Face 和 Cohere 公司的团队创建,于 2022 年底推出,旨在全面评估模型在各种嵌入任务中的技术性能。嵌入涉及将数据(如词、文本或文档)转换为数字向量,以捕捉大致的语义和向量之间的距离。嵌入是 RAG 的重要组成部分。在 RAG 任务中
284、,当用户输入查询时,模型将其变换为嵌入向量。这种 Transformers 可使模型搜索相关信息。MTEB 包括跨越 112 种语言的 58 个数据集和 8 个嵌入任务(图 2.2.19)。10 例如,在 bitext 挖掘任务中,有两组来自两种不同语言的句子,对于第一组中的每个句子,模型的任务是在第二组中找到最佳匹配。MTEB 比较基准的任务资料来源:Muennighoff 等,2023图 2.2.1910、基准覆盖的 8 类任务包括:双语文本挖掘、分类、聚类、配对分类、重排序、检索、语义文本相似度和摘要。各任务细节详见 MTEB 论文。67.5668.1768.2369.3269.8870
285、.1170.2470.3171.1971.2171.6271.6772.0272.3174.03SFR-Embedding-MistralLinq-Embed-Mistralvoyage-large-2-instructN-Embed-v1bge-multilingual-gemma2stella_en_400M_v5gte-wen2-7B-instructSFR-Embedding-2_Rstella_en_1.5B_v5LENS-d4000LENS-d8000bge-en-icljasper_en_vision_language_v1NV-Embed-v2voyage-3-m-exp020
286、406080100目录第二章预览1162025年人工智能指数报告第二章:技术性能2.2 语言截至 2025 年初,MTEB 比较基准中表现最佳的嵌入模型是 Voyage AI 的 voyage-3-m-exp,得分为 74.03 分。Voyage AI 专注于打造高品质的 AI 嵌入模型。voyage-3-m-exp 是基于 voyage-3-large(专为嵌入任务设计的大规模基础模型)的变体,采用套娃表征学习(Matryoshka Representation Learning)和量化感知训练等策略优化性能。该模型以微弱优势超越 NV-Embed-v2(72.31 分),后者在 2024
287、年大部分时间占据榜首(图 2.2.20)。MTEB 基准于 2022 年底首次推出时,领先模型的平均分仅为 59.5 分。因此,在过去两年中,比较基准的成绩显著提高。平均得分模型图 2.2.20MTEB 英语子集(56 个数据集)平均得分资料来源:MTEB Leaderboard,2025|图表:2025 年人工智能指数报告图 2.2.21图 2.2.22模型模型目录第二章预览1172025年人工智能指数报告第二章:技术性能2.2 语言RULER 加权平均得分(递增)资料来源:Hsieh 等,2024|图表:2025 年人工智能指数报告ULER 宣称和有效上下文长度的对比料来源:Hsieh 等
288、,2024|图表:2025 年人工智能指数报告重点:长上下文检索评估随着人工智能模型的进步,它们处理更长上下文的能力也显著提高。例如,OpenAI 和 Meta 在 2023 年发布的 GPT-4 和 Llama 2 模型,其上下文窗口分别为 8,000 和 4,000 个词元。相比之下,更近期的模型如 GPT-4o(2024年 5 月)和 Gemini 2.0 Pro Experimental(2025 年 2 月)的上下文窗口范围已扩展至 12.8 万至 200 万。这些扩展的上下文窗口使用户能够输入并处理越来越大的数据量,从而实现更复杂、更详细的交互。随着大语言模型的上下文窗口不断扩大,
289、评估其在长语境中的技术性能也变得越来越重要。然而,现有的长语境评估方法相对有限。通常情况下,这些评估侧重于 大海捞针 的场景,即要求模型从冗长的文本中检索特定的信息片段。这些评估虽然有用,但只能提供对模型的基础评估。2024 年,为解决长上下文模型评估的局限性并改进其评估,推出了几款新的评估套件。其中一个比较基准是 英伟达在 2024 年推出的 RULER,其通过检索性能、多跳推理、信息聚合和问答等任务综合评估长上下文性能。在RULER 测试中,Gemini-1.5-Pro 以 95.5 分位居榜首,GPT-4(89.0 分)和 GLM4(88.0 分)次之(图 2.2.21)。研究还发现,多
290、数宣称支持 32K 词元上下文的模型实际有效长度不足宣称值的一半(图 2.2.22)。事实上,RULER 团队证明,虽然大多数流行的 大语言模型都宣称上下文大小为 32K 词元或更大,但其中只有一半能在 32K 长度时保持令人满意的技术性能。这意味着它们的实际操作上下文窗口比开发者宣称的要短(图 2.2.22)。Phi3-medium(14B)Qwen2(72B)GradientAI/Llama3(70B)Command-R-plus(104B)Yi(34B)Llama3.1(8B)Llama3.1(70B)GLM4(9B)GPT-4-1106-previewGemini-1.5-pro0%2
291、0%40%60%80%100%74.80%79.60%82.60%82.70%84.80%85.40%85.50%88.00%89.00%95.50%Phi3-medium(14B)Qwen2(72B)GradientAI/Llama3(70B)Command-R-plus(104B)Yi(34B)Llama3.1(8B)Llama3.1(70B)GLM4(9B)GPT-4-1106-previewGemini-1.5-pro0200K400K600K800K1MClaimedE ective加权平均分(inc.)上下文长度(词元)图 2.2.22目录第二章预览1182025年人工智能指数报告
292、第二章:技术性能2.2 语言长上下文基准对比资料来源:Yen 等,2024图 2.2.23HELMET:平均得分资料来源:Yen 等,2024|图表:2025 年人工智能指数报告平均得分重点:长上下文检索评估(续)HELMET(长上下文模型高效全面评估框架)是英特尔与普林斯顿大学 2024 年联合推出的另一个长上下文评估基准。其开发动机源于现有基准的三大缺陷:下游任务覆盖不足、上下文长度过短无法测试进阶能力,以及评估指标不可靠(图2.2.23)。相比 RULER,HELMET 更全面,包含合成召回、段落重排序、引用生成等 7 类长上下文评估任务。图 2.2.24 展示了多款知名模型在 8K、3
293、2K 和 128K 上下文设置下的 HELMET平均表现。虽然 GPT-4、Claude 3.5 Sonnet 和 Llama 3.1-70B 等模型在较长的上下文场景中性能下降,但其他模型,如 Gemini 1.5 Pro 和 GPT-4 八 月 版,则 保 持 了 技 术 性 能。RULER 和 HELMET 等比较基准的推出显示了大语言模型的快速发展如何迫使研究人员重新思考和完善评估方法。64.2063.9059.5059.8060.2058.6066.3053.5063.5060.8039.9063.8039.5062.7049.30GPT-4GPT-4o-08Claude-3.5-S
294、onnetGemini-1.5-ProLlama-3.1-70B0204060801008k32k128k模型计算机视觉使机器能理解图像/视频内容,并根据文本或其他提示生成逼真的视觉输出。该技术广泛应用于自动驾驶、医学影像和游戏开发等领域。目录第二章预览1192025年人工智能指数报告VCR 挑战赛示例问题资料来源:Zellers 等,2018第二章:技术性能2.3 图像与视频2.3 图像与视频理解能力视觉模型通过理解图像/视频内容并进行推理的能力接受评估。视觉理解是深度学习时代最早被广泛测试的人工智能能力之一,李飞飞创建的 ImageNet(在过往的人工智能指数报告中被深度阐述)曾是图像理解
295、的基础基准。随着技术进步,研究人员将评估重点转向更复杂的任务,如视频理解或图像常识推理。在 ImageNet 数据集时代,视觉算法的任务较为直接(例如,将图像归入预定义的类别)。而现代基准如 VCR 和MVBench 则提出开放式挑战,其中不存在固定的分类或类别在这种情况下,模型需处理自然语言问题,从开放图像集中识别对象,并基于图像内容或前期知识生成答案。VCR:视觉常识推理视 觉 常 识 推 理(VCR)挑 战 由 华 盛 顿 大 学 和 Allen Institute for AI 的研究人员于 2019 年推出,测试人工智能系统的常识视觉推理能力。在这项挑战中,人工智能系统不仅要根据图像
296、回答问题,还要对答案背后的逻辑进行推理(图 2.3.1)。VCR 中的技术性能是通过 Q-AR 分数来衡量的,该分数评估的是机器既能选择问题的正确答案(Q-A),又能选择该答案背后的适当理由(Q-R)的能力。目录第二章预览1202025年人工智能指数报告第二章:技术性能2.3 图像与视频VCR比较基准是人工智能指数中为数不多的几个人工智能系统一直未达到人类基准水平的比较基准之一。然而,2024年是一个转折点,人工智能系统终于达到了这个基准。2024年7 月,leaderboard上出现了一个模型,得分达到 85.0,与人类比较基准相匹配(图2.3.2)。这一里程碑标志着自2023 年以来比较基
297、准成绩提高了4.2%。甚至以前难以达到的比较基准现在也已超越。视觉常识推理(VCR)任务:Q-AR 分数资料来源:VCRLeaderboard,2025|图表:2025 年人工智能指数报告MVBench由香港与中国大陆研究团队于 2023 年推出的MVBench 是挑战性多模态视频理解基准。11与早期仅测试空间理解的静态图像任务不同,MVBench 包含需跨帧时序推理的复杂视频任务(图 2.3.3)。11、研究人员分别来自中国科学院、中国科学院大学、上海人工智能实验室、香港大学、复旦大学及南京大学图 2.3.2MVBench 任务示例资料来源:Li 等,2023图 2.3.3Q-AR 分数20
298、182019202020212022202320245060708085 85(人类基线)目录第二章预览1212025年人工智能指数报告第二章:技术性能2.3 图像与视频截至2024年,MVBenchleaderboard榜首为基于Qwen2.5-7B-Instruct语言模型构建的Video-CCAM-7B-v1.2,其得分为 69.23,较2023 年底引入该比较基准以来,提高了 14.6%(图 2.3.4)。这些结果凸显了人工智能模型在动态视频理解能力方面取得的缓慢但稳步的进展。这些结果凸显了人工智能模型在动态视频理解能力方面取得的缓慢但稳步的进展。MVBench:平均准确率资料来源:M
299、VBench Leaderboard,2025|图表:2025 年人工智能指数报告图 2.3.4平均准确率48.70%50.90%51.10%54.73%54.85%58.10%58.77%60.40%62.30%62.80%64.60%65.35%67.25%67.42%69.23%interlm-7bvicuna-7b-delta-v0VideoChat2Kwai-VideoLLMST-LLMPLLaVA 34BCVLMVideoChat2_mistralVideoChat2_HD_mistralVideo-CCAM-4B-v1.1Video-CCAM-9B-v1.1JT-VL-ChatI
300、nternVideo2-8B-HD-Chat-f16TimeMarkerVideo-CCAM-7B-v1.20%20%40%60%80%100%目录第二章预览1222025年人工智能指数报告第二章:技术性能2.3 图像与视频生成能力图像生成旨在创建与真实图像难以区分的合成内容。如去年人工智能指数所述,当前图像生成器已高度成熟,多数人难以分辨人工智能生成的人脸图像与真实照片(图 2.3.6)。图 2.3.6 展示了从 2022 年到 2025 年,针对 哈利-波特的超逼真图像 这一提示,不同 Midjourney 模型版本生成的图像。这表明 Midjourney 在两年时间里生成超逼真图像的能力
301、有了显著提高。在 2022 年,该模型生成的哈利 波特形象是卡通的、不准确的,但到了 2025 年,它可以生成呈现惊人真实的渲染效果。Midjourney 版本迭代:超写实哈利 波特图像 资料来源:Midjourney,2024哪张脸是真实的?资料来源:Which Face Is Real,2024图 2.3.5图 2.3.6目录第二章预览1232025年人工智能指数报告第二章:技术性能2.3 图像与视频Chatbot Arena:视觉人工智能社区越来越接受公共评估平台,例如 Chatbot Arena Leaderboard,以评估包括顶级人工智能图像生成器在内的领先人工智能系统的性能。该
302、leaderboard 还设有视觉leaderboard,对 50 多个视觉模型的性能进行排名。用户可以提交文本到图像的提示,例如“蝙蝠侠在喝咖啡”,并为他们喜欢的生成结果投票(图 2.3.7)。截至目前,视觉竞技场已获得超过 15 万次投票。截至 2025 年初,leaderboard 上排名第一的视觉模型是谷歌的 Gemini-2.0-Flash-Thinking-Exp-1219(图 2.3.8)。与其他 Chatbot Arena 类别(如整体、编码和数学)类似,领先模型的性能非常接近。例如,排名第一的模型与排名第四的模型 ChatGPT-4o-latest(2024-11-20)之间
303、的差距仅为 3.4%。LMSYS Chatbot Arena 大语言模型 Elo 评分(视觉)资料来源:LMSYS,2025|图表:2025 年人工智能指数报告图 2.3.7图 2.3.8Pixtral-Large-2411Claude 3.5 Sonnet(20241022)Claude 3.5 Sonnet(20240620)Gemini-1.5-Flash-002GPT-4o-2024-05-13Gemini-1.5-Pro-002ChatGPT-4o-latest(2024-11-20)Gemini-Exp-1206Gemini-2.0-Flash-ExpGemini-2.0-Flas
304、h-Thinking-Exp-12191,1601,1801,2001,2201,2401,2601,280Elo 评分模型Chatbot Arena 视觉板块示例资料来源:Chatbot Arena Leaderboard,2025目录第二章预览1242025年人工智能指数报告第二章:技术性能2.3 图像与视频重点:视频生成的崛起正如去年的人工智能报告所强调的,近年来,能够根据文本提示生成视频的模型逐渐兴起。早期的模型虽然展现出一定的潜力,但仍存在明显的局限性,例如生成的视频质量较低、缺少声音,或仅能生成非常短的片段。然而,2024 年标志着 AI 视频生成技术的重大飞跃,多家行业领先企业发
305、布了先进的视频生成系统。2023 年 11 月,Stability AI 推出了其 Stable Video Diffusion 模型,这是该公司首个能够生成高质量视频的基础模型(图 2.3.9)。该模型采用三步流程:文本到图像的预训练、视频预训练以及高质量视频的微调。随后,2024 年 3月,Stability AI 发布了 Stable Video 3D 模型,该模型能够从单张图像生成物体的多个3D视角和视频。2024年2月,OpenAI 推出了其视频生成模型 Sora 的预览版,并于2024 年 12 月正式向公众开放。Sora 能够生成长达 20 秒、分辨率高达 1080p 的视频(图
306、 2.3.10)。作为一种扩散模型,它首先生成一个基础视频,随后通过多步去噪逐步优化,以提升视频质量。Stable Video Diffusion 生成的静态帧资料来源:Stability AI,2025Sora 生成的静态帧料来源:OpenAI,2024图 2.3.9图 2.3.10重点:视频生成的崛起(续)其他科技巨头也纷纷进入视频生成领域。2024 年 10月,Meta 发布了其 Movie Gen 模型的最新版本。与早期版本不同,新版 Movie Gen 具备基于指令的高级视频编辑功能、从图像生成个性化视频的能力,并支持为视频添加声音。Meta 最先进的 Movie Gen 模型能够生
307、成 16 秒、每秒 16 帧、分辨率为 1080p 的视频。谷歌也在 2024 年取得了显著进展,推出了两款重要的视频生成模型:5 月发布的 Xeo 和12 月发布的 Xeo_2。谷歌的内部比较基准显示,Veo 2 在性能上优于其他领先的视频生成模型,如 Meta 的 MovieGen、Kling v1.5 和 Sora Turbo。在用户对比中,Veo 2 生成的视频普遍更受青睐(图 2.3.11)。规模相对较小的玩家也在视频生成领域做出了显著贡献,例如 Runway 的 Gen-3 Alpha、Luma 的 Dream Machine 和快手的 Kling 1.5。通过对比 2023 年和
308、 2024 年生成的视频,可以清晰地看到这一领域的显著进步。互联网上流行的提示词“威尔 史密斯吃意大利面”生动地展示了这一进步:2025 年由热门视频生成器 Pika 生成的视频,其质量较 2023 年的版本有了显著提升(图 2.3.12)。威尔 史密斯吃意大利面,2023 年和 2025 年对比资料来源:Pika,2025Veo 2:整体偏好资料来源:DeepMind,2024|图表:2025 年人工智能指数报告目录第二章预览1252025年人工智能指数报告第二章:技术性能2.3 图像与视频图 2.3.12图 2.3.11整体偏好 53.80%49.50%54.50%58.80%15.60%
309、17.80%15.20%14.50%30.60%32.60%30.30%26.70%Meta Movie GenKling v1.5MinimaxSora Turbo0%20%40%60%80%100%Veo偏好 持平其他偏好V1.02023 年 12 月V1.52024 年 10 月V2.22025 年 2 月2.4 语音语音识别语音识别是指人工智能系统识别口语并将其转换为文本的能力。语音识别技术已取得长足进步,如今许多计算机程序和短信应用均配备了听写设备,能够可靠地将语音转录为文字。LSR2:Lip Reading Sentences 2牛津大学与 BBC 联合发布的 Lip Readin
310、g Sentences 2(LRS2)数据集于 2017 年推出,是目前最全面的公开唇读数据集之一,专注于真实场景下的应用(图 2.4.1)。该数据集包含来自各类脱口秀和新闻节目的视听片段。在自动语音识别(ASR)任务中,系统的语音转录能力通过词错误率(WER)进行评估,分数越低表示转录越精确。BBC lip reading sentences 2 数据集中的静态图像资料来源:Chung 等,2024目录第二章预览1262025年人工智能指数报告第二章:技术性能2.4 语音人工智能系统在人类语音处理方面表现卓越,其音频能力包括将口语转录为文本以及识别个体说话者。近年来人工智能在生成合成音频内容
311、方面也取得了显著进展。图 2.4.1目录第二章预览1272025年人工智能指数报告今年,Whisper-Flamingo 模型在 LRS2 比较基准中创下新标准,词错误率(WER)达到 1.3%,超越了 2023 年 1.5%的最先进水平(图 2.4.2)。然而,由于当前 WER 已处于极低水平,进一步显著提升的可能性较小,表明该比较基准可能已接近饱和。LRS2:词错误率(WER)资料来源:Papers With Code,2025|图表:2025 年人工智能指数报告图 2.4.2第二章:技术性能2.4 语音20182019202020212022202320240%1%2%3%4%5%6%7
312、%8%1.30%词错误率(WER)编程涉及生成计算机可执行的指令以完成任务。近年来,大语言模型已成为熟练的编程助手,为计算机科学家提供了重要支持。越来越多的证据表明,许多程序员认为人工智能编程助手非常实用。正如去年的人工智能指数报告所强调的,大语言模型的编程能力日益精进,以至于许多基础编程比较基准(如HumanEval)正逐渐趋于饱和。为此,研究人员已将重点转向测试大语言模型在更复杂编程挑战中的表现。2.5 编程HumanEvalHumanEval 是 Open 人工智能研究人员于 2021 年推出的比较基准,通过164 道手工编写的编程题目评估人工智能系统的编码能力(图 2.5.1)。目前H
313、umanEval 性能领先的模型是 Claude 3.5 Sonnet(HPT),其得分达到了100%(图 2.5.2)。目录第二章预览1282025年人工智能指数报告图 2.5.1图 2.5.2第二章:技术性能2.5 编程Pass1HumanEval 示例题目资料来源:Chen 等,2023HumanEval:Pass1资料来源:Papers With Code,2025|图表:2025 年人工智能指数报告20212022202320240%20%40%60%80%100%100%目录第二章预览1292025年人工智能指数报告SWE-bench2023 年 10 月,普林斯顿大学和芝加哥大学
314、的研究人员推出了 SWE-bench 数据集,该数据集包含 2,294 个源自真实GitHub 问题和热门 Python 代码库的软件工程问题(图 2.5.3)。SWE-bench 为 AI 编程能力提供了更高难度的测试,要求系统跨多个函数协调修改、适应不同执行环境并进行复杂推理。SWE-bench 包含一个经过筛选的 Lite 子集以简化评估,以及一个由人工标注的 Verified 子集。以下图表:展示了 Verified子集的得分。SWE-bench 突显了大语言模型在曾被视为极具挑战性任务上的快速进步。2023 年底,SWE-bench 上表现最佳的模型得分仅为 4.4%。而到 2025
315、 年初,排名第一的模型OpenAI 的 o3 模型在 Verified 基准集上成功解决了71.7%的问题(图 2.5.4)。这一显著性能提升表明,人工智能研究人员可能很快需要开发更具挑战性的编程比较基准来有效测试大语言模型。SWE-bench:问题解决率资料来源:SWE-bench Leaderboard,2025;OpenAI,2024|图表:2025 年人工智能指数报告图 2.5.4问题解决率模型第二章:技术性能2.5 编程SWE-bench 示例模型输入资料来源:Jimenez 等,2023图 2.5.340.67%41.00%41.33%41.67%44.67%47.33%48.33
316、%48.67%49.00%55.00%53.20%55.00%55.40%57.00%57.20%58.20%60.20%62.20%62.80%64.60%71.70%Agentless-1.5+Claude-3.5 Sonnet(2024-10-22)Composio SWE-Kit(2024-10-30)PatchKitty-0.9+Claude-3.5 Sonnet(2024-10-22)OpenHands+CodeAct v2.1(claude-3-5-sonnet-2024-10-22)Kodu-v1+Claude-3.5 Sonnet(2024-10-22)devloGloban
317、t Code Fixer AgentGru(2024-12-08)Blackbox AI AgentIsoformBracket.shAmazon Q Developer Agent(v2024-12-02-dev)EPAM AI/Run DeveloperAgent v2024-12-12+Anthopic Claude 3.5 SonnetGru(2024-12-08)Emergent E1(v2024-12-23)devloLearn-by-interactCodeStory Midwit Agent+swe-search Blackbox AI AgentW&B Programmer
318、O1 crosscheck5o3LiteVerified0%20%40%60%80%100%LiteVeri ed目录第二章预览130BigCodeBench 困难集测试:Pass1(平均得分)资料来源:Hugging Face,2025|图表:2025 年人工智能指数报告BigCodeBench 全集测试:Pass1(平均得分)资料来源:Hugging Face,2025|图表:2025 年人工智能指数报告BigCodeBench 中的编程任务资料来源:Zhuo 等,2024图 2.5.5图 2.5.7图 2.5.6第二章:技术性能2.5 编程2025年人工智能指数报告BigCodeBenc
319、h现有编程比较基准的一个局限性在于,许多测试仅局限于短小、自包含的算法任务或独立函数调用。然而,解决复杂实际任务通常需要调用多样化函数的能力(如数据分析工具或网页开发工具)。高效的编程还要求模型能理解自然语言表达的编码指令这一能力未被当前多数编程基准所测试。为弥补现有编程基准的不足,一个国际团队于 2024 年发布了 BigCodeBench一个全面、多样且极具挑战性的编程比较基准(图 2.5.5)。该基准要求大语言模型跨 139 个库和 7大领域调用多重函数调用,涵盖 1,140 项细粒度任务。当前人工智能系统在该基准上表现欠佳:即使在基准的 完整 任务(基于结构化文档字符串的代码补全)和
320、指令 任务(基于自然语言指令的代码补全)的困难子集上,当前最优模型(OpenAI的 o1)平均得分仅 35.5(图 2.5.6)。模型在基准全集上表现略优(图 2.5.7)。BigCodeBench 凸显了人工智能系统在实现人类级编程熟练度方面仍存在的差距。Pass1(平均得分)模型30.8031.1031.4032.1032.1032.8033.8034.10 34.5035.50Qwen2.5-Coder-32B-InstructGPT-4o-2024-11-20Athene-V2-AgentAthene-V2-ChatGPT-4-Turbo-2024-04-09o1-2024-12-17
321、(temperature=1,reasoning=medium)DeepSeek-V3-ChatGemini-Exp-1206o1-2024-12-17(temperature=1,reasoning=low)o1-2024-12-17(temperature=1,reasoning=high)020406080100Pass1(平均得分)模型52.90 53.20 53.50 53.50 54.00 54.10 54.20 54.7056.1056.10Gemini-2.0-Flash-ExpGPT-4-Turbo-2024-04-09Qwen2.5-Coder-32B-InstructGP
322、T-4o-2024-11-20DeepSeek-Coder-V2-InstructDeepSeek-V2-Chat(2024-06-28)Gemini-Exp-1114Gemini-Exp-1206DeepSeek-V3-ChatGPT-4o-2024-05-13020406080100Elo 评分Chatbot Arena:编程能力测评Chatbot Arena 的大语言模型 leaderboard 新增了编程能力筛选功能,为开发者及社区评估不同模型的编程能力提供了宝贵参考。这种公开反馈为评估模型性能增添了新的维度。目前评分最高的编程专用大语言模型是 Gemini-Exp-1206,其竞技场
323、得分为 1,369 分,OpenAI 的最新 o1 模型以 1,361 分紧随其后。中国模型中,DeepSeek-V3 以 1,317 分领先,与榜首相差 3.8%(图 2.5.8)。目录第二章预览131第二章:技术性能2.5 编程2025年人工智能指数报告LMSYS Chatbot Arena 关于大语言模型的 Elo 评分(编程)资料来源:LMSYS,2025|图表:2025 年人工智能指数报告图 2.5.8模型Qwen2.5-plus-1127DeepSeek-V3Claude 3.5 Sonnet(20241022)Gemini-2.0-Flash-Thinking-Exp-1219G
324、emini-2.0-Flash-ExpChatGPT-4o-latest(2024-11-20)o1-previewo1-minio1-2024-12-17Gemini-Exp-12061,3001,3201,3401,3601,380数学解题比较基准用于评估人工智能系统的数学推理能力,测试范围涵盖从小学水平到竞赛标准的各类数学问题。第二章:技术性能2.6 数学目录第二章预览1322025年人工智能指数报告GSM8K:准确率资料来源:Papers With Code,2024|图表:2025 年人工智能指数报告GSM8K 问题示例资料来源:Cobbe 等,2023图 2.6.1图 2.6.2准
325、确率2022202320240%20%40%60%80%100%97.72%2.6 数学GSM8KGSM8K 是 OpenAI 于 2021 年推出的数据集,包含约 8,000 道多样化的小学数学应用题,要求人工智能模型通过多步算术运算生成解决方案(图2.6.1)。与 MMLU 一样,GSM8K 已成为评估先进的大语言模型的常用比较基准。但近期该基准可能面临数据污染和性能饱和的问题。GSM8K 上表现最佳的模型是采用 HPT 提示策略优化的 Claude Sonnet 3.5 变体,其准确率达到 97.72%(图 2.6.2),较 2023 年的 91.00%有显著提升。然而 2024 年,M
326、istral、Meta 和 Qwen 的多个模型得分均接近 96%,表明GSM8K 基准可能已趋近饱和。准确率MATHMATH 数据集是由加州大学伯克利分校和芝加哥大学的研究人员于 2021 年推出的数学问题集,包含 12,500 道具有挑战性的竞赛级题目(图 2.6.3)。该数据集发布之初,人工智能系统表现欠佳,仅能解决其中 6.9%的问题。但此后性能显著提升:2025 年 1 月,OpenAI 发布的 o3-mini(高性能版)模型在MATH 数据集上取得突破性进展,解题准确率高达 97.9%(图2.6.4)。根据去年人工智能指数的评估,MATH 曾是少数几个人工智能系统尚未超越人类基线的
327、基准之一,但这一现状已被改写。目录第二章预览1332025年人工智能指数报告MATH 文字解题:准确率资料来源:Papers With Code,2024 年;OpenAI,2025 年:论文与代码,2024 年;OpenAI,2025 年|图表:2025 年人工智能指数报告来自 MATH 数据集的问题示例资料来源:Hendrycks 等,:Hendrycks 等,2023 年图 2.6.3图 2.6.4第二章:技术性能2.6 数学202120222023202420250%20%40%60%80%100%97.90%90%,人类基准Elo 评分模型Chatbot Arena:数学能力测评Ch
328、atbot Arena 新增数学筛选功能,允许公众根据模型生成数学相关答案的表现进行排名。Math Arena 评估了超过181 个模型,并收集了 34 万份公众投票。与通用和编程竞技场中 Gemini 系列模型领先的情况不同,数学竞技场排名第一的是 OpenAI 于 2024 年 12 月发布的 o1 变体模型(图 2.6.5)。FrontierMath数学界成员指出当前数学比较基准的局限性,呼吁开发新的比较基准以评估日益先进的人工智能系统。主要挑战在于饱和现象:人工智能系统在 GSM8K 和 MATH 等高中和大学水平数学测试中已接近完美表现。为进一步突破边界,研究人员提出需要测试真正高阶
329、数学的基准,包括数论、实分析、代数几何和范畴论等问题。FrontierMath 是 Epoch AI 推出的新基准,包含数百道原创高难度数学问题。这些问题由数学家团队审核,通常需要数小时、数天甚至协作研究才能解决。图 2.6.6 展示了基准中的示例题目。Epoch 人工智能评估了六款领先大语言模型在FrontierMath 上的表现:o1-preview、o1-mini、GPT-4o、Claude 3.5 Sonnet、Grok 2 Beta 和 Gemini 1.5 Pro 002。基准发布时,表现最佳的 Gemini 1.5 Pro 仅解决了 2.0%的问题远低于其在其他数学基准中的成绩(
330、图 2.6.7)。而 OpenAI的 o3 模型得分为 25.2%。FrontierMath 开发者希望该基准能在未来数年持续成为尖端人工智能系统的严峻挑战。目录第二章预览1342025年人工智能指数报告LMSYS Chatbot Arena 大语言模型评分:Elo 评分(数学)资料来源:LMSYS,2025|图表:2025 年人工智能指数报告第二章:技术性能2.6 数学图 2.6.5Claude 3.5 Sonnet(20241022)Gemini-1.5-Pro-002DeepSeek-V3ChatGPT-4o-latest(2024-11-20)Gemini-2.0-Flash-ExpG
331、emini-Exp-1206Gemini-2.0-Flash-Thinking-Exp-1219o1-minio1-previewo1-2024-12-171,2601,2801,3001,3201,3401,3601,380问题解决率目录第二章预览1352025年人工智能指数报告FrontierMath 示例问题资料来源:Glazer 等,2024F FrontierMath:问题解决率资料来源:Glazer 等,2024;OpenAI,2025|图表:2025 年人工智能指数报告第二章:技术性能2.6 数学图 2.6.6图 2.6.7模型0.00%1.00%1.00%2.00%2.00%2
332、5.20%Grok 2 BetaGPT-4o(2024-08-06)o1-previewClaude 3.5 Sonnet(2024-10-22)Gemini 1.5 Pro(002)o30%20%40%60%80%100%目录第二章预览1362025年人工智能指数报告第二章:技术性能2.6 数学重点:学习与定理证明DeepMind 运 用 其 系 统 AlphaProof 和AlphaGeometry 2,成功解决了 2024 年国际数学奥林匹克竞赛(IMO)6 道题目中的 4 道,表现达到银牌得主水平。在比较基准中,AlphaGeometry 解决了 30 道奥数几何题中的25 道,超越了
333、 IMO 银牌得主平均解决的 22.9 道(图 2.6.8)。IMO 成立于 1959 年,是全球历史最悠久、最具声望的青年数学家竞赛。AlphaProof 是基于 AlphaZero 的强化学习系统,后者曾应用于国际象棋、将棋和围棋。该系统通过生成假设并利用 Lean 交互式证明系统验证假设来自主解决问题。此外,经过微调的 Gemini 模型被用于将自然语言问题陈述转化为形式化表示,从而构建了全面的训练库。在本届竞赛中,AlphaProof 成功解决了 2 道代数题和 1 道数论题,但未能解决 2 道组合数学题。AlphaGeometry 2 是一种神经符号混合系统,其语言模型基于 Gemini,并通过大量合成数据训练而成。2024 年之前,AlphaGeometry 能解决 83%的历史 IMO 几何题。在2024 年竞赛中,该系统仅用 24 秒便解决了唯一一道几何题。测试中,竞赛题目