1、人工智能大语言模型人工智能大语言模型技术发展研究技术发展研究报告报告(2024 年年)中国软件评测中心中国软件评测中心(工业和信息化部软件与集成电路促进中心)(工业和信息化部软件与集成电路促进中心)20242024 年年 6 6 月月人工智能作为引领新一轮科技产业革命的战略性技术和新质生产力重要驱动力,正在引发经济、社会、文化等领域的变革和重塑,2023 年以来,以 ChatGPT、GPT-4 为代表的大模型技术的出台,因其强大的内容生成及多轮对话能力,引发全球新一轮人工智能创新热潮,随着大模型技术演进、产品迭代日新月异,成为科技产业发展强劲动能。本报告总结梳理大语言模型技术能力进展和应用情况
2、,并对未来发展方向予以展望,以期为产业界提供参考。由于编者水平所限,不妥之处,请批评指正。1目录第一章 大语言模型发展基石.1(一)软硬协同持续推动大模型能力提升.11.大模型发展对算力需求成井喷式增长.12.AI芯片自研和算力优化成为应对算力需求的重要手段.23.计算、存储、网络协同支持大模型训练.34.深度学习框架是大模型研发训练的关键支撑.55.大规模算力集群的创新应用与突破.6(二)数据丰富度与质量塑造大模型知识深度与广度.71.大模型对数据数量、质量提出新要求.72.产业各方加快构建高质量丰富数据集.11(三)算法优化与创新推动大模型能力升级.141.多阶段对齐促进大模型更符合人类价
3、值观.142.运用知识增强提升模型准确性.15第二章大语言模型发展现状.16(一)模型训练推理效率及性能明显提升.17(二)围绕中文生成与推理能力构筑比较优势.18(三)模型应用生态更加丰富多样.18(四)海量数据处理基础能力不断增强.19(五)采用多模型结合的路线加速应用落地.20第三章大语言模型的核心能力进阶.22(一)深层语境分析与知识融合强化语言理解应用.22(二)精确内容生成与增强搜索的融合.232(三)符号逻辑与神经网络的融合提升.25(四)上下文记忆能力的增强.26(五)更为可靠的内容安全与智能应答机制.27第四章大语言模型创新应用形态智能体.28(一)智能体(AI Agent)
4、.281.智能体正成为大模型重要研发方向.282.大模型能力为 AI Agent 带来全面能力提升.29(二)典型 AI Agent 案例.321.RoboAgent:通用机器人智能体的开创性进步.322.Coze:优秀的创新型 AI Agent 平台.333.Auto-GPT:推动自主 AI 项目完成的新范例.344.Amazon Bedrock Agents:企业级 AI 应用的加速器.345.文心智能体平台:革命性的零代码智能体构建平台 356.腾讯元器:AI Agent 的智慧化体验.357.NVIDIA Voyager:引导学习的 Minecraft 智能体.368.MetaGPT:
5、多智能体协作的元编程平台.36第五章大语言模型应用发展趋势.37(一)大模型将更加注重多模态数据融合.37(二)大模型将提升自适应和迁移学习能力.39(三)采用可解释性算法提高模型透明度.40(四)垂直大模型产品研发需结合行业深度定制.41(五)大模型发展需妥善处理隐私保护与数据安全问题431第一章 大语言模型发展基石(一)软硬协同持续推动大模型能力提升1.大模型发展对算力需求成井喷式增长大规模的训练和推理需要强大的高性能算力供应,高端AI 芯片是大模型高效训练和应用落地的核心,是决定大模型发展能力高低的关键。人工智能大模型参数规模和训练数据量巨大,需千卡以上 AI 芯片构成的服务器集群支撑,
6、据测算,在 10 天内训练 1000 亿参数规模、1PB 训练数据集,约需 1.08w 个英伟达 A100 GPU,因大模型对高端 AI 芯片需求激增及高端芯片进口供应受限,英伟达等高端芯片已供不应求。据金融时报估算,我国企业对英伟达 A800、H800两款 GPU 产品的需求达 50 亿美元。GPT-3 的训练使用了 128 台英伟达 A100 服务器(练 34天)对应 640P 算力,而 GPT-4 的训练使用了 3125 台英伟达A100 服务器(练 90100 天)对应 15625P 算力。GPT-4 模型的参数规模为 1.9 万亿,约为 GPT-3 的 10 倍,其用于训练的 GPU