编写说明编写单位,华为终端云,华为云编写组成员华为终端云梅岩,余斌,陈梁,林啸鸣,刘珩,陆松超,薄宏剑,丁凯平,郭贺飞,金雪松,孙建楠,项登荣,章其东,朱佳伟华为云柏效意,喻然,秦韵,袁勇PREFAC.
市场份额中国赋能的工业质检解决方案市场份额,差异化竞争日益凸显市场份额图市场份额图图图,中国中国赋能的赋能的工业质检解决方案市场份额概况,工业质检解决方案市场份额概况,注,年厂商份额,收入,百万美元,.
01云计算作为信息技术发展和服务模式创新的集中体现,多年来在政策,市场,需求等因素的驱动下蓬勃发展,不断推动数字经济和实体经济的深度融合,从技术层面看,云计算已全面转向云原生,从形态方面看,云计算从聚.
加速行业智能化白皮书使能百模千态,赋能千行万业本书编委会主任委员,王丽彪华为企业BG副总裁,行业ICT解决方案开发管理部部长主编,王慷华为行业ICT解决方案架构设计部部长编委会委员,排名不分先后,魏亮.
互联网行业再进化云上AI时代前言2023年4月,华为云联创营发布MVP计划,携手企业C,O,从产业数字化的实际问题出发,促进更多行业解决方案的孵化,丰富行业技术生态,并通过这种形式让数字化价值更普惠共.
年深度行业分析研究报告,正文目录人形机器人开启新纪元,细节详解,旋转执行器,直线线性执行器,人形机器人核心硬件拆解,减速器,减速器是机器人核心零部件,减速器市场迎来,黄金时代,国内谐波减速器市场国产替.
川财证券川财证券研究报告研究报告本报告由川财证券有限责任公司编制谨请参阅本页的重要声明137数字经济建设框架下,数字经济建设框架下,AAII与自动驾驶将贡献算力需求全新增量与自动驾驶将贡献算力需求全新.
2023年深度行业分析研究报告31IMU是惯性定位技术的核心设备,通常包括三个轴向的陀螺和加速度计是惯性定位技术的核心设备,通常包括三个轴向的陀螺和加速度计,51,1IMU是测量物体三轴姿态角,或角速.
点击查看更多绿色计算产业联盟:绿色计算产业发展白皮书(2022版)(35页).pdf精彩内容。
OpenGCC联盟官网联盟官方微信平台OpenGCC绿色计算产业联盟行业解决方案示范宗例集CASEBOOKGREENCOMPUTINGCONSORTIUMTHESELECTIONOFINDUSTRYF.
来机器人系列报告,四,精密减速器轴承,国产突围在即,年月日请阅读最后一页免责声明及信息披露证券研究报告行业深度研究电力设备与新能源电力设备与新能源投资评级投资评级看好看好上次评级上次评级看好看好武浩电.
绿色计算产业发展白皮书,2023版,绿色计算产业联盟绿色计算产业联盟指导委员会,梅宏,肖然,刘仁辰,陈大纪,窦强,何征宇编写组成员,任翔,赵鑫,钟伟军,李雪莲,李卫忠,胡晓晶,周嘉颖,周绍梁,祝秀秀,.
预训练大模型白皮书01PREFACE高 文中国工程院院士 鹏城实验室主任北京大学博雅讲席教授自 1956 年人工智能在达特茅斯会议上被提出,人工智能领域的学者一直致力于提升算法的通用性能力,即希望人工智能方法能够像人类一样,快速灵活地适应各种实际应用问题,提升人类社会的生产效率。然而,在人工智能发展的前半个世纪,学者们始终没有找到合适的方法论,而包括符号计算、专家系统等精心设计的模型,都只能用于少数限定场景,无法拓展到以计算机视觉、自然语言处理为代表的复杂系统中去。21 世纪初,随着硬件性能的演进和大数据的兴起,情况发生了根本性的变化。2010 年开始,深度学习以席卷之势,占领了人工智能的大部分领域,在许多公测数据上取得了前所未有的精确度。深度学习的本质是统计学习,即通过在大量数据上拟合复杂函数,使得该函数具有泛化能力。时至今日,这种范式已经取得了巨大的成功:一个深层神经网络,只要在不同数据上训练或者微调,就能够应用于不同的任务,而这件事在 20 年前是几乎无法想象的。然而,基于深度学习的人工智能方法,依然存在明显的缺陷。对大数据和大算力的强烈依赖、对参数调节的敏感性,都在无形之中抬高了人工智能算法的使用门槛。为此,我们迫切地需要一种新思路,打通通用数据和领域知识,并且大幅度地降低人工智能研发的人力和算力成本。为此,业界提出了预训练大模型的范式,通过收02集海量训练数据,并通过一种称为预训练的过程,将其中蕴含的知识存储于大规模神经网络,即大模型之中。如此,这个预训练大模型就具有了很强的泛化能力,并且可以通过简单的微调操作,将其能力应用到下游任务中去。在过去五年间,预训练大模型在自然语言处理、计算机视觉等领域取得了长足的发展,模型规模屡创新高,模型泛化性也不断提升。而我也欣喜地看到,预训练大模型已经在华为取得商业应用,成功落地在工业质检、智慧交通、时尚设计等多个产业中。人工智能的前路依然漫长。预训练大模型正在逼近统计学习方法的极限,但是它也有无法解决的课题,包括模型的可解释性和安全性等难题。同时,大模型的功耗远远超过人类大脑,也意味着这种方式也许不是最优的解决方案。总的来说,当前的人工智能正处在历史的十字路口,业界需要在预训练大模型的基础上做出抉择,走出未来的发展道路来。在上述背景下,华为公司发布预训练大模型白皮书,具有重要的意义。我相信,华为在大模型的研发和落地上的投入,最终会给学术界和产业界带来启发,成为扩展人工智能能力边界和推动人工智能产业升级的强大力量。03PREFACE张平安华为高级副总裁华为云 CEO当今世界正面临百年未有之大变局。以人工智能、大数据、物联网、云计算和 5G为代表的数字化技术,正在深刻地驱动产业变革,重塑全球的技术和产业格局。其中,人工智能发展的经济和战略意义,已经取得了包括中国在内的全球许多国家的共识。2021 年,习总书记在主持中央政治局第三十四次集体学习时强调,支持人工智能和实体经济深度融合,建设数字中国、智慧社会,推进数字产业化和产业数字化,打造具有国际竞争力的数字产业集群。2022年8月,科技部等六部门联合印发了 关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见,系统指导各地方和各主体加快人工智能场景应用,推动经济高质量发展。发展人工智能已经是世界高科技的方向标之一,也成为了全球各个强国推进前沿研发的纲领性原则和激烈竞争场。作为当前人工智能领域最前沿的课题和最有力的武器,预训练大模型无疑是这场竞争中的焦点之一。以自然语言处理领域为例,预训练大模型的参数规模已经从 2018 年的亿级来到了 2022 年万亿级,几乎每年都能看到数量级上的提升。预训练大模型是一项庞大的系统性工程,不仅涉及到先进算法的研发,还需要硬件、框架、开发工具的支持。华为公司构建了从昇腾 鲲鹏芯片到 AI 开发框架04MindSpore 和 AI 开发平台 ModelArts 的全栈式开发能力,并基于这些能力提出了盘古预训练大模型。一年多以来,盘古大模型持续演进,在计算机视觉、自然语言处理、科学计算等领域为业界贡献了先进的算法和解决方案。截至 2022 年,盘古大模型已经被应用于十余个行业的百余个场景,为研发人员提供了新的开发方案,也取得了可观的商业价值。实践表明,盘古预训练大模型能有效减少专家的干预和人为调优的消耗,降低人工智能开发的门槛和成本,这对践行普惠 AI,实现人工智能的泛化和规模复制,具有非常巨大的意义。在整合大模型研发和落地经验后,华为团队撰写了预训练大模型白皮书,旨在将自身对大模型的洞察毫无保留地分享给业界,以期推进以大模型为核心的人工智能产业的健康发展。前路是艰辛的,前途也是光明的。人工智能经历六十余年的沉浮,始终没有放弃“减少重复劳动”和“扩展人类知识边界”这两大根本目标。只要不忘初心、牢记使命,技术研究和行业落地就能更紧密地结合起来,在发展技术的同时,为人类社会创造更多的福祉。05FOREWORD高新波教授 重庆邮电大学校长 国家杰出青年科学基金获得者 教育部长江学者特聘教授古有盘古开天地,今有华为大模型。为解决人工智能算法落地的碎片化困境,预训练大模型应运而生。自华为云团队发布盘古预训练大模型以来,形成了全栈式 AI 解决方案,在很多领域获得了成功的应用。相信预训练大模型白皮书将会引领大模型健康发展,为通用人工智能探索一条可能的新路径。庄越挺浙江大学计算机学院教授国家杰出青年基金获得者 教育部长江学者特聘教授 教育部人工智能协同创新中心主任预训练大模型是当前新一代人工智能领域最前沿的研究方向,正成为世界各科技强国竞争的焦点。预训练大模型率先在自然语言处理领域取得突破性的进展,并迅速拓展到涉及图像、视频、图形、语言等跨媒体推理的各类任务和大量的商业应用之中,展现了巨大的发展潜力。华为云发布预训练大模型白皮书,正逢其时,必定对 AI 行业产生有价值的指导作用,也体现了作为一个科技大公司的担当精神。我相信,预训练大模型可望成为跨媒体智能的重要技术手段。张民教授 哈尔滨工业大学(深圳)特聘校长助理计算与智能研究院院长 国家杰出青年基金获得者预训练大模型被称为人工智能应用的基础设施,它具有强大的知识建模、知识获取和应用泛化能力。华为云预训练大模型白皮书以华为云盘古大模型家族为代表,全面介绍了华为在大模型方面的系列创新性工作,包括视觉、语音语义、多模态、科学计算、图网络大模型,以及产业落地经验和对未来发展的展望。这本白皮书会给学术界和产业界提供重要的启发和借鉴。06李厚强教授 中国科学技术大学信息学院副院长 IEEE Fellow国家杰出青年科学基金获得者 教育部长江学者特聘教授预训练大模型是人工智能领域的研究热点和前沿技术,近年来在自然语言处理、计算机视觉等方向取得了巨大成功。华为云团队撰写的预训练大模型白皮书,将其在大模型研发和落地中的经验总结出来,分享给学术界和工业界,对推动预训练大模型理论、方法、技术、应用的发展具有重要意义。熊红凯上海交通大学特聘教授国家杰出青年基金获得者 教育部长江学者特聘教授爱因斯坦说:这个宇宙最让人难以理解的地方,就是它竟然是可以被理解的。斗转星移,大数据和人工智能在 21 世纪,为我们开启了一个理解人类自身认知的帷幕,逐步融入了我们的日常生活;也正是在这样一种时代背景下,旨在建立一种通用智能的“大模型”应运而生。它寄望于“预训练大模型 下游任务微调”的方式,将知识存储到大量参数中,扩展模型的泛化能力。很大意义上,对大模型的落地部署,能够超越产业和国家的界限,实现人类社会的福祉。华为公司的预训练大模型白皮书,我相信,能为我们建立普遍理性和平等的社会,提供强大的力量。姜育刚复旦大学教授 博士生导师教育部长江学者特聘教授 复旦大学人事处处长近年来,以 GPT-3、CLIP 为代表的超大规模预训练模型被陆续提出,通过在海量数据上进行自监督学习,有效提升了自然语言处理与计算机视觉领域多个下游任务的性能。华为云在预训练大模型领域有着深厚的技术积累,于 2021 年发布了“盘古”系列超大规模预训练模型,受到了学术界和工业界的广泛关注。华为云预训练大模型白皮书总结了大模型的发展趋势及其带来的机遇,为未来研究提供了重要借鉴。07让预训练大模型成为 AI 的操作系统近年来,国内的云计算市场增速明显,企业上云明显提速。客户的需求逐步从“资源型需求”转向“智能型需求”及“业务型需求”,意味着 PaaS、SaaS 等各行业各场景的云解决方案将受到更多关注。尽管该市场呈现出了广阔的前景,业务的庞大数量和场景种类夸张的多样性也意味着巨大的难度。随着市场的成熟上升,“一招鲜吃遍天”的套路相对于针对用户需求定制化的解决方案已不具优势,意味着在细分领域深耕的中小型友商也具有瓜分市场的竞争力。因此,如何在保证市场占有率并支撑如此大量的业务的情况下,控制资源和成本、保证交付效率和保证产品质量是云厂商要解决的核心难题。引言PREFACE封闭的作坊式的 AI 开发局限于特定的场景。特定的数据无法满足 AI 快速落地行业的需求AI 走进企业核心生产系统,开始创造更大价值高成本,高门槛、无积累AI 进入千行百业面临诸多挑战1 场景碎片化,作坊式开发难以规模复制2 行业知识与 AI 技术结合困难3 行业普通 AI 模型攻击、隐私、安全担忧“2025 年,企业对 AI 的采用率86%(当前4%)”EI AI 实践:600 项目,30%进入生产系统,但是如果人们对电磁的理解停留在法拉第的电磁感应层次而没有麦克斯韦的电磁场理论,电气革命是不可能发生的。如果刮风下雨打雷甚至连温度变化都会导致断电,电怎么可能变成一个普惠性的产品,怎么可能变成社会基础设施?模型 1专家 专家 专家 定制场景 1模型 2专家 专家 专家 定制场景 2模型 3专家 专家 专家 定制场景 308为了解决这个困境,预训练大模型应运而生。它收集大量图像、文本等数据,利用无监督或者自监督学习方法将数据中蕴含的知识提取出来,存储在具有大量参数的神经网络模型中。遇到特定任务时,只要调用一个通用的流程,就能够将这些知识释放出来,并且与行业经验结合,解决实际问题。近年来,预训练大模型相关研究和应用呈井喷态势,大有一统人工智能领域的趋势。不过我们也应该看到,预训练大模型距离规模化的商业应用,还有很长的路要走,这里不仅包含技术的演进,也包含商业模式的进化。按照我们的设想,大模型是未来 AI 计算的“操作系统”,向下管理 AI 硬件,向上支撑 AI 算法,使得 AI 开发更加规范化、平民化。我们希望通过编写预训练大模型白皮书,将我们团队在研究和落地中获得的经验总结下来,更好地促进行业的进步。另一方面,随着工业生产越来越强调智能化,大量传统行业开始积累领域数据,并寻求人工智能算法以解决生产和研发过程中遇到的重复而冗杂的问题。这就意味着,人工智能算法在落地的过程中,将会面对大量不同场景、不同需求的用户。这对算法的通用性提出了很高的要求。然而我们注意到,当前业界大部分人工智能开发者,正在沿用传统的“小作坊模式”,即针对每个场景,独立地完成模型选择、数据处理、模型优化、模型迭代等一系列开发环节。由于无法积累通用知识,同时不同领域的调试方法有所不同,这样的开发模式往往比较低效。特别地,当前人工智能领域存在大量专业水平不高的开发者,他们往往不能掌握规范的开发模式和高效的调优技巧,从而使得模型的精度、性能、可扩展性等指标都不能达到令人满意的水平。我们将上述问题,称为人工智能算法落地的碎片化困境。超大的神经网络预训练模型华为云盘古大模型AI 工业化开发流水线流水线流水线泛化复制模型泛化 极大节省训练投入流水线 工具集成 训练更快盘古大模型效率提升更佳模型性能10-100 倍模型 3模型 2模型 1场景 1场景 2场景 3强壮的网络架构优秀的泛化能力预训练微调&部署迭代NLP大模型(千亿参数)CV大模型(30亿参数)多模态大模型科学计算大模型09大模型是 AI 发展的必然趋势盘古大模型家族介绍/09/191.1 人工智能发展史简介1.2 人工智能发展趋势的总体研判2.1 视觉大模型2.2 语音语义大模型2.3 多模态大模型2.4 科学计算大模型2.5 图网络大模型10盘古大模型应用案例/433.1 视觉大模型案例:TFDS 图像自动识别3.2 语音语义大模型:赋能智慧销售3.3 多模态大模型:一网统管事件工单分配3.4 图网络大模型:水泥生产系统的自动控制3.5 图网络大模型:炼焦系统的自动控制展望未来,大模型的机遇与挑战并存/5511大模型是 AI 发展的必然趋势13人工智能从 1956 年被正式提出以来,经历了数十年的发展历程。人工智能诞生初期,其研究主要分为三个流派,即逻辑演绎、归纳统计和类脑计算。其中,逻辑演绎方法局限性较强,难以对建模复杂的实际问题进行建模;而类脑计算方法过多地依赖于生命科学,特别是脑科学的研究,而后者的进展难以满足人工智能的一般要求。在进入 21 世纪依赖,在大数据和大算力的支持下,归纳统计方法逐渐占据了人工智能领域的主导地位,并且催生出一系列方法论和应用,深刻地影响和改变了人类社会。1.1 人工智能发展史简介14人工智能发展史孕育期19561974198019871994繁荣期繁荣期繁荣期低谷期低谷期反向传播算法的提出深蓝战胜世界冠军人工智能的乐观思潮神经网络的数学模型通用计算机出现图灵测试的提出达特矛斯会议的召开感知器算法和硬件化DARPA 资金的支持Perceptron出版DARPA 终止资助对盲目乐观的反思专家系统出现统计学习受到重视专家系统的局限性硬件需求大幅下降资金支持再次减少统计学习方法的应用深度学习开始统治AlphaGo 战胜李世乭大规模预训练模型再次获得资金支持15如上图所示,人工智能的主要发展阶段如下:孕育期这一时期的代表性成果,主要包括Warren S.McCulloch和 Walter Pitts 提出的人工神经网络的视觉模型,以及Alan M.Turing 设想的验证人工智能的思想实验(即图灵测试)。同时,1946 年出现的通用计算机 ENIAC,也为人工智能的复杂演算提供了硬件支撑。19431956 年第一次繁荣期以 1956 年达特茅斯会议为标志,人工智能被正式提出并且进入第一次繁荣期。基于逻辑演绎的人工智能算法解决了某些特定领域的问题(如证明数学定理),而基于亚符号系统的感知器算法也被实现出来,甚至在 1957年出现了专门用于模拟感知 器 的 计 算 机 Mark I。此时的学者对于人工智能抱有不切实际的乐观幻想,包括Marvin L.Minsky(1969 年图灵奖得主)和 Herbert A.Simon(1975 年图灵奖得主)在内的多名学者,均预测人工智能将在 20 年内获得彻底解决。而以 DARPA 为代表的政府机构和大型企业,也为人工智能的研究注入了大量资金。19561974 年第一次低谷期研究者们很快意识到了第一代人工智能算法的极限。1969 年,Marvin L.Minsky发表著作Perceptrons,几乎一手摧毁了联结主义(即人工神经网络)方面的研究;同时,基于逻辑演绎的算法也被证明需要指数级时间以解决大部分问题。随着DARPA 等机构撤出大部分投资,人工智能领域也开启一波反思浪潮,其中有代表性的是 James Lighthill 于 1973年发表的人工智能综述报告和 John R.Searle 于 1980 年提出的中文房间问题。19741980 年16第二次繁荣期随着专家系统的出现和盛行,人工智能算法开始在限定领域内解决实际问题。1975 年 出 现 的 MYCIN 算法,能够在医学领域完成血液传染病的诊断工作。同时,以 Hopfield 网络为代表的新型神经网络和 David E.Rumelhart 发明的反向传播算法,极大地增强了人工神经网络的适用范围。1989年,Yann LeCun(2018 年 图 灵奖得主)使用五层神经网络识别手写数字,该方法取得巨大成功并在 20 世纪 90 年代识别了美国超过 10%的手写支票。以 DARPA 为代表的机构再次行动起来,使得20 世纪 80 年代后半段在人工智能领域的投入资金比起前半段增长了数倍。19801987 年第二次低谷期然而,专家系统很快遇到了新的困境。研究者们发现,即使在限定领域中,面对未知或者未定义的问题时,即使问题十分简单,专家系统的表现也无法预测甚至控制。随着支持人工智能研究资金的再度锐减,研究者们再次开始反思,并且将思路逐渐从符号系统(如归纳演绎方法)转向亚符号系统(如统计学习方法)。这一时期,研究者们开始认识到感知和交互的重要性,其中影响较大 的 观 点 包 括 David Marr在其著作Vision中提出的视觉理解模型和 Rodney A.Brooks 提出的“模型可有可无,世界即是描述自身最好的模型”等。19871993 年第三次繁荣期随着现代计算机的存储能力和算力不断增强,统计学习方法逐渐成为人工智能领域的绝对主流。在人工智能的各个领域,如计算机视觉、语音识别、自然语言处理等,手工设计的模型都逐渐被统计学习模型所取代。从 2011年开始,深度学习浪潮席卷人工智能领域,终于在多个领域达到或者超越了人类水平。人工智能的第三次繁荣期,也是历史上最长的一次,至今仍未有结束的趋势。虽然许多本质问题尚未得到解决,但人工智能的诸多应用已经深刻地改变了人类社会。1993 年至今值得一提的是,深度学习并未解决人工智能的本质问题。未来,业界很可能还要经历数次低潮与革新,方能达成真正的通用人工智能。在此之前,虽然存在着关于强/弱人工智能的讨论和对科技奇异点的担忧,但业界的重心依然是人工智能算法的研发。17从古早阶段开始,人工智能就分为不同的流派。人工智能的先驱们,探索和论证着通向真正智能的崎岖道路。有趣的是,有影响力的三大流派(逻辑演绎流派、归纳统计流派、类脑计算流派)从人工智能创立之初便存在,时至今日也未由其中一派彻底统一。三大流派各有优劣势。类脑计算流派的目标最为宏远,但在未得到生命科学的支撑之前,难以取得实际应用。归纳演绎流派的思考方式与人类相似,具有较强的可解释性。由于对数据和算力的依赖较少,归纳演绎流派成为人工智能前两次繁荣的主角。随着学界对人工智能困难程度的理解逐渐加深,数理逻辑方法的局限性被不断放大,并最终在第三次繁荣期中,逐渐让位于统计学习的“暴力美学”。这种“抛弃人类先验,拥抱数据统计”的思想,在深度学习出现后被推向高峰。1.2 人工智能发展趋势的总体研判18值得强调的是,深度学习是时代的产物。如果没有与大数据(存储设备和移动互联网的发展)和大算力(尤以 GPU 的飞速演进为代表)的支持,深度学习就不可能在短短的 3-5 年间占领人工智能的大部分领域。而随着人工智能模型的参数越来越多,训练所需的数据集规模也越来越大。为了适应巨大的参数空间和数据量,研究者们提出了层次化建模和分散表示的思想,使得复杂数据匹配的效率和精度获得提升,从而大大促进了特征学习。从技术的角度看,深度学习的核心是深度神经网络:通用的骨干网络配合特定目的的头部网络,使得深度学习统一了各个子领域内的不同问题。例如,在计算机视觉领域,彼此十分相似的深度神经网络已经成为图像分类、物体检测、实例分割、姿态估计等具体问题的通用框架;而在自然语言处理领域,一种被称为 Transformer 的模块也被大量使用,研究者们得以建立起通用的语言模型。然而,从本质上看,深度学习依然没有跳出统计学习的基本框架:特征抽取和模板匹配。相比于人类基于知识的推断,这种方式无疑是低效的。在人工智能进入千行百业的大背景下,这种设计理念必将导致人工智能算法的通用性受限,因为对于任何新的概念乃至新的实体,算法都需要专门的训练数据来提供相关的信息,而在没有基础模型支撑的情况下,开发者们必须从头开始完成收集数据、训练模型、调试模型、优化部署等一系列操作。对于大部分人工智能开发者而言,这无疑是重大的挑战;同时,这也使得人工智能算法的开发成本居高不下,难以真正惠及细分行业,尤其是中小型企业。AI19回顾历史,2011 年前后,正是传统统计学习方法的鼎盛时期,在计算机视觉领域甚至出现了参数量超过10亿的词袋分类模型即使在 2021 年,10 亿参数的计算机视觉模型也足以被称为大模型。然而,2012 年左右,深度神经网络仅用 6000 万参数,即彻底击败词袋分类模型,引领计算机视觉发展至今。深度神经网络之于词袋分类模型,本质上是在特征匹配效率上产生了突破;我们猜测,在大模型发展到一定程度时,会产生另一个维度的突破,从而使得统计学习方法“进化”至下一阶段。目前看来,这个突破有可能产生于大模型与知识的结合。根据实践经验,预训练大模型加持下的人工智能算法(包括计算机视觉、自然语言处理等),相比于普通开发者从头搭建的算法,精度明显上升、数据和计算成本明显下降,且开发难度大大降低。以计算机视觉为例:在 100 张图像上训练基础物体检测算法,原本需要 8 块 GPU 运行 5 个小时、1 名开发者工作 1 个星期才能完成,而在预训练模型的支持下,只需 1 块 GPU 运行 2 个小时,而几乎不需要人力干预。综合人力、算力开销研判,上述案例的开发成本节约至原先的10%甚至 1%。在下一个划时代的计算模型出现以前,大模型将是人工智能领域最有效的通用范式,并将产生巨大的商业价值对大模型的研究,将有可能启发下一个通用计算模型预训练大模型是解决上述问题的有效手段。预训练大模型是深度学习时代的集大成者,分为上游(模型预训练)和下游(模型微调)两个阶段。上游阶段主要是收集大量数据,并且训练超大规模的神经网络,以高效地存储和理解这些数据;而下游阶段则是在不同场景中,利用相对较少的数据量和计算量,对模型进行微调,以达成特定的目的。我们将在第 2 章更详细地介绍预训练大模型的方法论。虽然预训练大模型看起来很难导向真正的人工智能,但我们做出两个重要的判断:20综上所述,预训练大模型是现阶段人工智能的集大成者,代表了统计学习流派的最高成就。在新一代技术未出现前,它将是人工智能研究和开发的最强武器。事实上,围绕大模型的研发和落地,中美之间已经展开了新一轮的竞争。美国中国Turing-NLG(微软,EN)参数:170 亿数据:1-5 百 GB资源:300-500GPUs盘古(华为)NLP&CV&多模态&科学计算参数:1000 亿数据:40TB 文本(更新)资源:鹏城云脑悟道 2.0(北京智源)NLP&多模态参数:1.75 万亿数据:4.9TB 图像,文本资源:神威超算文心 ERNIE 3.0(百度)NLP参数:100 亿数据:4TB 文本资源:384 V100 GPUsM6(阿里)多模态参数:100 亿数据:1.9TB 文本 292GB 图像资源:128 A100 GPUs紫东太初(中科院自动化所)多模态参数:千亿级数据:文本、图像、音频GPT-3(OpenA,EN)参数:170 亿数据:570GB资源:10000 V100 GPUsText Sum.(OpenAI,EN)参数:67 亿数据:12 万文章资源:微调使用 320GPU-DaysSwitch-C(谷歌,EN)参数:1.6 万亿数据:750GB资源:32TPU 核威震天(微软-英伟达,EN)参数:5300 亿数据:-资源:-PaLM(谷歌,EN)参数:5400 亿数据:-资源:4096 TPU-v3通过大模型构筑 AI 技术竞争壁垒是当前中美 AI 技术竞争的热点盘古大模型在商业落地走在最前列1盘古 工作流实现低算力,低门槛,边学边用的使用模式结合 ModelArts 和智能体工作流能力,实现轻量化交付借助华为已有行业基础,构筑行业大模型23盘古大模型家族介绍2123基于上述研判,华为云团队于2020年立项AI大模型,并且于2021年4月首次以 盘古预训练大模型(简称盘古大模型)的名称对外发布。盘古大模型集成了华为云团队在 AI 领域数十项研究成果,并且受益于华为的全栈式 AI 解决方案,与昇腾(Ascend)芯片、昇思(MindSpore)语言、ModelArts 平台深度结合。本章简要介绍盘古大模型的若干组成部分,剖析构建大模型的关键技术。计算机视觉的主要目标,是设计出能够识别视觉信号,并且对其进行各种处理和分析的程序。换句话说,计算机视觉是研究计算机如何去“看”的学科。其中,较为典型的任务包括图像分类、物体检测、物体分割、物体追踪、姿态估计等。下图展示了图像分类中最著名的 ImageNet 数据集(超过 2 万个物体类别)和 MS-COCO 数据集(包括检测、分割等多种任务)。2.1 视觉大模型The ImageNet dataset15M images,21K categories,1.5TBThe MS-COCO datasetdetection,segmentation,pose estimation,etc.24在计算机中,视觉信号一般以“密集采样强度”的方式存储:不同方向入射的光线在每个信道(如红绿蓝)上的强度被记录下来,用于呈现图像的基本内容。图像中的每个基本单元被称为像素很显然,这些像素并不能代表基本的语义信息,因而图像的基本存储形态和人类能够理解的语义之间,存在很大的差距。在学界,这种差距被称为“语义鸿沟”,这也是几乎所有计算机视觉研究所需要处理的核心问题。进一步探究图像的存储形态,我们会发现图像信号的若干特点:鉴于上述特点,基于深度神经网络的预训练大模型就成为了计算机视觉落地的最佳方案之一。预训练过程能够一定程度上完成视觉信号的压缩,深度神经网络能够抽取层次化的视觉特征,而预训练结合微调的范式则能够应对丰富多变的域。以下,我们讲述盘古视觉大模型的整体思路和技术方案。内容较复杂信息密度低域丰富多变图像信号的基本单位是像素,但是单个像素往往不能表达语义。图像识别的任务,就是构建特定函数,使得像素级输入能够产生语义级输出。这种函数往往非常复杂,很难通过手工方式定义。图像信号能够忠实地反映事物的客观表征;然而其中相当部分的数据被用于表达图像中的低频区域(如天空)或者无明确语义的高频(如随机噪声)区域。这就导致了图像信号的有效信息密度较低,特别是相比于文本信号而言。图像信号受到域的影响较大,而且这种影响通常具有全局性质,难以和语义区分开来。例如,同样的语义内容,在强度不同的光照下,就会体现出截然不同的表征。同时,相同的物体能够以不同的大小、视角、姿态出现,从而在像素上产生巨大差异,为视觉识别算法带来困难。252.1.1 数据收集图像是一种复杂的非结构化数据,包含丰富的语义信息。现如今,还没有任何一种方法能够对图像数据的数学规律进行准确的描述,因而人们只能通过收集大量的数据,来近似现实中图像数据的分布。2009 年出现的 ImageNet 数据集是计算机视觉领域的重要里程碑,它使得训练、评估大规模图像处理方法成为可能。随着计算机视觉技术的进步和更多应用的出现,ImageNet数据集的局限性逐渐显现出来,包括规模、复杂性等。为了解决这一问题,我们必须收集更大规模、更加复杂的图像数据,而这也是业界的一致趋势。我们通过多种渠道收集图像数据,包括但不限于公共数据集合下载、自有数据集合扩充、各搜索引擎关键字爬取、以图搜图、视频图像抽帧等。从这些原始数据中,我们筛除了低分辨率、低曝、过曝、简单背景等低质量图像数据,再通过已有预训练视觉模型进行重复图像的判断和去除,最终保留超过 10 亿张高质量图像数据,占据约 40TB 空间。10 亿 图像数据40 TB存储空间覆盖自动驾驶,电力,铁路,遥感等262.1.2 预训练方法我们使用的神经网络模型覆盖了计算机视觉领域最为常见的卷积网络和 transformer 架构,两者既可以分开使用,也可以按需结合以达到更好的效果。利用自动机器学习算法,我们能够支持并调用不同大小的神经网络,其中最大的计算模型具有接近 30 亿参数,最小的模型只有数十万参数,其大小相差超过 1000 倍,为适配不同的视觉任务提供了可能性。我们收集的训练数据大部分来自互联网,不仅具有相当程度的噪声,而且不包含准确的语义标签。为了充分利用这些数据,我们设计了自监督学习方法,即通过某种或者某几种代理任务,教会模型如何理解视觉数据,在没有语义标签的情况下也能拟合复杂的数据分布。特别地,我们在对比学习的基础上优化了相关代理算法,业界首创在对比度自监督学习中引入等级化语义相似度,即挑选那些距离相应聚类中心更近的最近邻作为正样本,并且在拉近语义相似样本的时候引入了混合样本增强,以减少样本选取过程中的噪声影响。在此基础上,我们拓展自监督学习算法中正样本的数目,使得正样本集合能够更加高效地被聚集,同时避免受到大量负样本优化的影响。我们采用的预训练算法(发表于 TPAMI 上)的简略示意图如下所示:(注:基于等级化语义聚集的对比度自监督学习)Encoder qEncoder KCandidates in DatasetBottleneckBottleneckBottleneckBottleneckBottleneckMLPMLPConvBNReLUConvBNReLUConvConvConvConvConvConvBNBNBNBNBNBNReLUReLUConvBNReLUConvBNReLUMixMixed SampleAnchor SamplePositive SampleSemanticSearch272.1.3 效果展示盘古视觉大模型在 ImageNet 数据集的线性分类评估上,首次达到了与全监督相比拟的结果。同时,受益于更好的语义对齐效果,我们的方法在小样本学习上表现优异:使用 ImageNet上 1%和 10%的 标 签 训 练,我 们 的 方 法 达 到 了 66.7%和75.1%的分类精度,均显著超越对比方法。以此方法为基础,我们设计了具有 10 亿参数量的基础模型,并在超过 10 亿张无标注图像组成的数据集上进行预训练。所得到的模型,在ImageNet 上 达 到 了 88.7%的分类精度,而 1%标签的半监督学习精度也达到 83.0%。同时,盘古大模型在超过 20 项下游任务上进行了测试,展现出良好的泛化能力,如下表所示。盘古预训练模型:分类性能比较盘古预训练模型:检测性能比较数据集业界最佳模型盘古预训练模型1Aircraft(飞行器)90.4389.322CUB-200-2011(鸟类)86.9091.803DTD(纹理)80.0585.004EuroSAT(卫星图块)98.8598.985Flowers102(花)97.0799.696Food101(食物)92.2194.587Pets(动物)95.2995.918SUN397(场景)71.5178.929StanfordCars(车)92.4894.0910StanfordDogs(狗)87.4191.2811Average89.2291.96数据集业界最佳模型盘古预训练模型1VOC(自然场景)72.276.62Comic(风格变换)35.638.03Clipart(风格变换)57.561.04Watercolor(风格变换)34.436.95DeepLesion(医疗)36.738.16Dota 2.0(遥感)21.221.07Kitti(自动驾驶)29.632.98Wider Face(人脸)35.336.39LISA(红绿灯)43.542.710Kitchen(厨房场景)53.655.0average41.9643.8528自然语言,是人类进化过程中形成的一种高效的存储和交换信息的载体。人们在使用自然语言交流时,既可以使用“听说”的方式,也可以使用“读写”的方式。这就意味着,对自然语言的理解和使用可以分为两个部分,即对于文字和音频的处理,合成为语音语义处理。在人工智能领域,这两个子课题分别被称为自然语言处理和语音处理。与计算机视觉类似,语音语义处理的目标,就是让机器学会像人一样理解并使用文字和声音,与人类或者其他智能体交流。如图所示,自然语言处理和语音处理都可以分为理解和生成两个部分。其中,“理解”的目标是让机器理解人类语言背后的语义信息,“生成”的目标让机器使用人类语言表达自己的意图。自然语言处理和语音处理的区别在于,前者主要处理文本信息,后者主要处理音频信号。大部分情况下,文本和音频信号具有很强的关联性,但是某些情况下,它们也可以表达各自擅长,而另一种载体难以表达的事物(如音乐难以用文本准确表达出来)。2.2 语音语义大模型音频语义语义文本床前明月光语音识别(ASR)文本理解语音合成(TTS)文本生成床前明月光文本音频29语音语义处理的一个核心问题,是将文字和声音表达为机器容易理解和处理的形式。在深度学习诞生之前,人们主要使用特征工程的方式,通过人工定义一些特征函数,将文字和声音转化为特征向量。这种方法依赖专家知识,且特征很难扩展,无法规模化应用。随着深度学习技术的发展,自动学习语言的向量表示逐渐成为主流。对于“理解”任务,通常使用一个神经网络作为编码器,将语言映射到低维向量,用向量表达语义信息;而对于“生成”任务,通常再使用一个神经网络作为解码器,将低维向量映射到语言,将向量中蕴含的信息表达出来。上述编码器-解码器框架,能够用于处理文字和音频信号,其中文本编码器和音频编码器具有较大的差异,而文本解码器和音频解码器却大致相同。在深度学习时代,如何设计编码器和解码器的网络结构,以及如何学习编码器和解码器的参数,是两个关键的技术问题。在小模型时代,CNN模型和RNN模型技术占据主流,尤其是RNN中的一类被称为LSTM的模型,凭借其处理远距离依赖的能力大放异彩。然而,RNN 模型的优化不稳定、且难以并行计算,这成为了构建大规模语言模型的障碍。2017 年,基于自注意力的 Transformer 模块被提出,它结合了已有方法的优点,在速度和表达能力上都体现出巨大优势,因而迅速占领了自然语言处理和语音识别领域。随着大规模语料库的出现和自监督学习方法的成型,业界在 2018 年迎来了大规模预训练模型 BERT 并就此进入大模型时代。如今,预训练大模型凭借其出色的泛化能力和在此基础上发展的基于提示的微调技术,大大简化了各种下游任务的实现方式,推动了自然语言处理和语音识别领域的巨大发展,成为语音语义处理领域落地的最佳方案。以下,我们讲述盘古语音语义大模型的整体思路和技术方案。302.2.1 数据收集与计算机视觉领域类似,自然语言处理和语音识别也建立在大规模数据集的基础上。所谓“读书破万卷下笔如有神”,为了让模型掌握强大的语言理解和生成能力,我们需要准备海量的数据让模型进行学习,覆盖各个主题和领域。关于文本部分,我们从互联网公开爬取了 40TB 原始网页数据,并且进行解析和清洗。我们使用正则匹配等方式,过滤掉常见噪声数据,如网页标签、特殊字符、错误编码等,并且使用哈希的方法对数据进行去重,然后对数据的长度进行规范,舍弃太短的文章并切分太长的文章,以确保输入长度在合理的范围内。最终,我们得到约 647GB 文本数据,其组成如下图所示。关于语音部分,我们从互联网公开爬取了超过 7 万小时普通话音频数据,并将其转换为音频文件,共计约11TB。视频来源包括新闻播报、影视剧、综艺节目、动画等。270GB百科知识200GB新闻博客106GB文学作品71GB社交媒体2.2.2 预训练方法对于语义部分,我们使用的神经网络是基于 Transformer 结构的编码-解码器模型。编码器负责文本理解,使用双向自注意力机制,让每个词充分“观察”它两边的词,以捕获它在上下文中的语义信息。解码器负责文本生成,使用单向自注意力机制,逐词进行生成,每个词只能“看到”它前面的词,根据上文的信息来预测下一个词。31为了让模型从海量文本数据中学到语言知识,需要设计合适的学习目标。我们提出多任务融合的训练策略,以让模型同时获得理解能力和生成能力。针对理解能力,我们使用遮罩语言模型作为训练目标,即在原文中挖空,让模型做完形填空任务,例如对于“床前明月光疑是地上霜”这句话,我们从中随机选取一些位置进行挖空,如将“明月”和“霜”挖掉,模型的训练目标是将挖掉的内容预测出来。针对生成能力,我们使用回归语言模型作为训练目标,即给定一句话的上半部分,让模型预测下半部分,例如将“床前明月光”作为输入,模型的训练目标是将“疑是地上霜”预测出来。此外,为了让模型具备零样本推理能力,即直接处理下游任务的能力,我们还收集了超过 100 个下游任务训练数据,涵盖情感分类、意图理解、语义匹配、实体识别等常见的自然语言任务,将这些数据也加入预训练当中。对于语音部分,其解码器与文本类似,我们主要考虑其音频编码器。我们使用卷积与 Transformer 结合的网络结构,底层用卷积神经网络提取局部信息,上层用 Transformer 网络提取全局信息。我们使用对比学习的训练目标,将音频中挖掉一个片段,再随机采样一些片段作为负例,让模型从中找出正确的被挖掉的片段。多任务混合遮罩语言模型回归语言模型下游任务床 前 X 光 疑 是 地上 Y这段新闻:俄罗斯的.类别是什么床 前 明月 光X 明月 Y 霜疑 是 地上 霜军事编码器解码器编码器解码器编码器解码器322.2.3 效果展示盘古的语义模型是业界首个千亿中文大模型,发布时(2021 年 5 月)在中文理解类榜单 CLUE 上获得第一名。CLUE 是中文理解类最权威的榜单,包括新闻分类、语义匹配、阅读理解、成语完形填空、指代消解等 10个任务。对于生成类任务,我们在 NLPCC2018 文本摘要任务上取得了业界最佳成绩,超越第二名 60%。由于多任务预训练,我们的模型具有强大的零样本推理能力,相比于 RoBERTa 模型,零样本推理准确率提升超过 50%。我们的语音模型是当前最大的中文语音模型之一,拥有超过 4 亿参数,在自有数据上相比于基线模型字符错误率相对降低 10%。下图展示了几个典型的自然语言理解任务,包括文本分类、阅读理解、实体识别等。盘古大模型在基于提示的微调下,能够轻松地在这些任务上取得很高的理解精度。文本分类任务输入这件衣服款式一般,但做工挺好的,价格也便宜,推荐购买输出积极输出白白输出姚明-人物上海-地点休斯顿火箭队-组织输入明明明明明白白白喜欢他,但他就是不说,他很高冷。提问:谁喜欢明明?输入姚明出生在上海,曾致力于休斯顿火箭队阅读理解任务实体识别任务33人类在理解外部世界时,往往需要综合考虑多种信息,如视觉、听觉等。在人工智能领域,多模态任务的主要目标就是处理和关联多源异构信息(如语音信息、文本信息、图像信息、视频信息等),通过设计相应信息融合或交互方法来综合提取多模态知识。因此,多模态任务与前述计算机视觉或者自然语言处理等处理单一模态的任务不同,需要在海量的多模态数据上完成预训练,然后将预训练的知识迁移到下游各项任务中,从而提升相应下游任务的精度。典型的多模态任务如下图所示,包括跨模态检索(譬如以文搜图或以图搜文)、视觉问答(通过图像内部所提供的信息对相关问题作答)、视觉定位(定位在一张图像中一段话所描述的对应区域),等。由于多模态数据具有多源异构的特点,理解任务的核心困难就在于如何将不同形态信息进行统一化表示,从而使得计算机能够处理完成多源异构信息的交互与知识抽取。盘古大模型围绕视觉(图像)和语言(文本)这两种最常见的模态展开研究,完成了一套预训练配合下游任务的流程。以下,我们将讲述盘古大模型的整体思路和技术方案。2.3 多模态大模型A man in a brown shirt rides an elephant into the water.A man and a boy are talking about a bicycle in a store.A man with a red helmet on a small moped on a dirt road.A pigeon greets three bicyclists on a park path.A kid is to blow out the single candle in a bowl of birthday goodness.Woman on right in white shirt342.3.1 数据收集与视觉和语音语义大模型相同,多模态大模型必须在海量、高质量的数据上进行训练。我们采用了业界通用的做法,即从互联网中爬取大量数据,然后使用过滤算法消除其中不符合要求的部分,最终得到高质量的图文配对数据,用于多模态大模型的预训练。具体地说,我们设定大量文本关键字,在搜索引擎上获取排名靠前的图像,并且将图像对应的文本(从元数据中获得)存储下来,形成图文配对数据池。去掉其中的重复数据后,我们进一步筛除其中分辨率过低或者文本长度过短的数据,随后利用已有的多模态预训练模型对这些配对的相似度进行判断,如果相似度太低,则将其文本描述丢弃并使用图像自动描述算法补充生成文本数据。经过上述预处理过程,我们最终得到了约 3.5 亿高质量的图文配对数据,占据约 60TB 存储空间。2.3.2 预训练方法多模态大模型预训练的关键,在于不同模态数据的高效交互和融合。当前主流的多模态大模型架构主要分为单塔架构和双塔架构。其中单塔架构只利用一个深度神经网络(一般是 Transformer)结构来完成图像和文本之间的交互融合,本质上属于信息前融合方案;而双塔架构利用不同的神经网络来完成不同模态的信息抽取,然后仅在最后一层做信息交互和融合,因而属于信息后融合方案。3.5 亿对图文数据60 TB存储空间35盘古大模型采用了双塔架构,其具有模型独立性强、训练效率高等优势。盘古大模型的实现方式很简单:分别使用相应网络抽取图像和文本特征,然后将一个批次的图像和文本特征送入判别器,在对比损失函数的作用下,使得配对的跨模态特征聚集在一起,而不配对跨模态特征被拉远。在大数据集上充分迭代后,模型就能学会将图像和文本对齐到同一空间。此时,图像和文本的编码器可以独立用于各自下游任务,或协同用于跨模态理解类下游任务。然而,当前大多数的多模态双塔架构方法仅仅进行了全局的信息对齐,而对于文本和图像内容的细粒度知识却缺乏考虑。譬如,一幅图像中可能包含很多视觉实体区域,而对应的文本描述中也包含了很多名词短语。以更精细的粒度对齐这些视觉实体和名词短语,将有助于多模态大模型获得更加强大的图文配对能力。基于此,盘古团队提出了自研算法 LOUPE(发表于 NeurIPS 2022 会议)。该算法利用博弈论相关思路将图像中的视觉实体区域和文本中的名词短语提取出,并通过对比学习损失函数进行细粒度对齐。使用这种方法训练出的多模态大模型,在多项下游任务中表现出了更好的精度。A girl in a blue coat is looking down at a dog led by a man in front of a churchA girl in a blue coat is looking down at a dog led by a man in front of a churchWord EmbeddingsPatch EmbeddingsWord TokensCLSCLSPatch TokensEfficient and Semantics-Sensitive Dual-EncoderSemantic PhrasesSemantic RegionsPhrase-Region Semantic AlignmentSemantics-level Shapley InteractionSemantic Region GenerationText EncoderText EncoderText-ImageContrastive LearningSemantics-level Shapley Interaction362.3.3 效果展示盘古多模态大模型在多模态的各项下游任务,如跨模态检索、图像描述自动生成、视觉定位等任务上均取得了业界领先水平。采用 LOUPE 算法预训练所得的模型,在跨模态检索数据集 Flicker30k 以及 MS-COCO上取得了当前业界最佳的图文检索精度,其中在 MS-COCO 的以文搜图任务上超过业界标杆算法 CLIP 达12.3%。此外,算法在开放域的物体检测和视觉定位任务中也取得了良好的效果,示意结果如下:(a)Object Detection(b)Visual Grounding37视觉大模型、自然语言大模型和多模态大模型主要面向通用的人工智能问题,例如音频分析、图像识别、语义理解等。人类擅长解决这些问题,因而能够标注大规模数据集供深度神经网络学习。然而,在自然科学中,还存在许多人类也无法解决的问题,如湍流模拟、天气预报、大形变应力建模等。这些问题有着广泛的应用场景,如下图所示:上述问题很有价值,却也非常复杂。在人工智能之前,科学家们通常通过分析实验数据与推演机理公式的方式提炼这些问题的内在规律。这些传统方法,容易在大体量、高维度的数据处理上遇到困难。近年来,随着人工智能技术的飞速发展,业界涌现出了 AI 科学计算类方法,即使用嵌入各类科学方程的深度神经网络,从观测数据和仿真数据中直接学习问题蕴含的规律,以对复杂的科学数据进行分析,了解科学过程的内部机理。2.4 科学计算大模型气象医药游戏水务工业机械航天航空土木.地质应用领域应用场景微分方程气象预报热力学状态方程碰撞模拟拉格朗日方程地震探测程函方程药物性质计算薛定谔方程海浪高度计算谱平衡方程机器人控制欧拉角微分方程飞行器设计N-S 方程结构应力分析本构方程.电子器件性能计算麦克斯韦方程38从预训练大模型的角度看,科学计算大模型与前述大模型存在若干相似之处。它们都建立在大规模数据集上,都需要设计大参数量的神经网络,都需要复杂的优化过程,最后将知识存储在网络的参数之中。以下,我们简单描述科学计算的独特之处。2.4.1 数据收集在 AI 科学计算场景中,数据分为观测数据和仿真数据两类。其中观测数据由观测工具(如游标卡尺,雷达,传感器等)产生,而仿真数据由仿真算法(对应人类知识)产生。这两类数据及其融合数据和机理知识,都可以作为 AI 模型的学习对象。不同科学计算场景的观测数据往往相差巨大,观测数据的收集往往需要特定领域的专业仪器与系统的实验,例如蛋白质结构预测问题中蛋白质结构的测定需要依赖于 X 射线衍射方法与核磁共振法、短临降雨预报问题中需要气象雷达收集的雷达波反射率数据、植物表型分析问题中数据则来自于实验员的收集,等等。在一些科学计算场景中,观测数据的数据量非常庞大,例如气象数据中的全球气象站历史数据、卫星数据和雷达回波数据。也有一些场景中,观测数据量相对较少,例如结构应力分析力传感器收集的数据。AI 模型AI 模型AI 模型AI 模型过去风速未来风速海浪高度氨基酸序列蛋白质结构药物性质39数据量噪音数据结构数据变化幅度准确度收集方式数据特点应用雷达回波数据GBTB级别大(X,Y,Z,T)每一个空间点有对应的雷达 回波值中等中等气象雷达原始数据是极坐标形式,拼接雷达回波数据中有空白区域短临降雨预报植物表型记录数据MBGB级别中等(N,C)每株植物每种特定表型(如产量,株高)有对应值较小高实验员手工收集或者高通量表型分析仪器数据收集难度较高,数据点较少植物表型-基因型关系分析氨基酸序列数据TBPB级别小固定词表的序列数据大高由测定的DNA 序列推算出序列数据,与文本数据相近蛋白质结构预测气象中心预报数据TBPB级别小(X,Y,Z,T)较大低由气象仿真算法得到仿真数据和实际场景的观测数据有系统误差气象要素预报大气资料再分析数据PB 级别大(X,Y,Z,T)较大中等由气象仿真算法与观测算法融合得到和实际场景观测数据有一定系统误差,但是包含观测数据的信息中长期气象预报 仿真数据来自于数值仿真算法的输出,蕴含着丰富的数学物理信息,同一个问题使用不同的仿真算法可以输出不同的仿真数据。仿真数据不同于观测数据,其精度受限于使用仿真算法的准确性和仿真计算的算力多少。相对于观测数据,仿真数据通常数据量更大(取决于仿真时使用的算力),同时缺省值较少,可以作为观测数据的有效扩充。在有些场景中,观测数据和仿真数据由特定的机理知识结合在一起,生成融合数据。如气象再分析数据,再分析数据通常使用同化算法融合仿真数据和实验数据得到结构化的数据,根据不同同化算法与使用的仿真数据也可以有不同的结果。以下总结了若干场景的数据情况。402.4.2 模型构建根据输入数据的性质,算法会选用不同的基础模型用于训练。以海浪预测任务为例,其目标为预测全球范围内海平面的实时浪高,输入和输出数据均为带有时间戳的二维球面数据,因此适合使用二维网络模型。如果将预测范围扩展至三维空间,如进行全球范围内的气象预测,输出和输出均为带有时间戳的三维数据(包括高度),则适合使用三维网络模型。二维网络和三维网络均可以借鉴计算机视觉领域的相应模型,如使用卷积神经网络或者视觉 Transformer 作为骨干架构,配合大数据进行预训练。科学计算的一个显著特点,是可以利用人类在相应问题上积累的经验,而这些经验通常会施加在输出数据上,成为某种约束性质的偏微分方程组。如下图所示,我们可以将此类方程组嵌入神经网络中,辅助模型架构设计或成为额外的约束条件,与标准观测或仿真数据一起,训练神经网络模型。在良好的实现下,这类知识通常能够增强模型的鲁棒性,降低模型拟合训练数据的难度和不稳定性。(注:左图为嵌入偏微分方程的神经网络示意图,右图为海浪预报问题使用的偏微分方程)412.4.3 案例和效果展示以下,我们展示一个典型的科学计算案例,即全球海浪高度预测系统。传统科学计算方法通过求解谱平衡方程计算波浪高度,通常需要使用超级计算机计算,同时消耗大量算力。由于计算无法做到实时完成,当风速等气象要素改变时,传统方法无法给出实时的海浪预测,存在一定时间延迟。海浪预测问题的输入输出都是经纬度网格点上的气象要素数据,在数据形式上与视频数据相似。不同之处在于,视频数据每个元数据是0-255 的像素值,而风速、地形、海浪高度等数据的每个元数据均为浮点数。同时,海浪预测的输出通常不是某种分类,而是连续的预测值,因此需要用回归损失替换深度学习中常用的分类、分割损失。此外,海浪数据和视频数据相比,并不满足平移对称性等,但满足球坐标条件下的一系列不变性,例如绕地轴旋转,因此需要选定满足特定不变性的 CNN 或者 Transformer 架构。盘古海浪预测模型的主体是考虑了旋转不变性的视觉 Transformer 架构,参数量约为五亿。如上所述,神经网络的损失函数由两部分组成,即实际数据上的预测误差和海浪预测本身需要满足的偏微分方程。通过爬取全球近10年的实时海浪高度数据进行训练,模型在验证集上预测的平均误差小于5cm,与传统预测方法相当,完全可以满足实际应用需求。更重要的是,AI 算法的预测时间较传统方法大幅减少:在单张华为昇腾芯片上,1s 之内即可得到全球海浪高度预测,1 分钟内能够完成超过 100 次海浪预测任务,推理效率较传统方法提升了 4-5 个数量级。使用 AI 算法,我们可以迅速得到不同可能的风速条件下的海浪高度,从而进行实时预测和未来情况模拟,对于渔业养殖、灾害防控等场景有极大的价值。图:盘古海浪预测模型可以在短时间内对数千组可能情况进行模拟,得到与传统科学计算方法相当的精度使用昇腾 AI 芯片,AI 模型可以在一秒内给出成百上千组“随机”风速分布下的海浪分布42当前,人工智能技术正在进入千行百业。除了图像、文本等常见数据形态外,还存在大量极度异质化的数据,如公司 ERP 数据(计划、财务、销售、采购)、分子基因、交通网络、股票、点云,等。这些数据很难通过标准的卷积、Transformer 等模块进行处理,因而需要适应不同任务和不同模态的神经网络,以达到量化的效果。我们以图网络的形式对通用数据进行建模,以利用图结构来表达数据元素间的相关性。在上述背景下,盘古图网络大模型被设计出来,它的目标是统一大模型在通用数据域上的构造方案,从而实现不同任务场景下端到端的大模型训练、优化、微调和部署。盘古图网络大模型主要实现的目标有:同时,盘古图网络大模型还配备有其他适合部署的功能,如模型加密(使得模型在云、边、端等不同场景下部署时收到产权保护)和大规模数据训练(支持多节点并发训练),使得整套系统对实际应用更加友好。2.5 图网络大模型在具体任务中,盘古图网络大模型可自适应构建不同基模型和图网络,实现更高的精度盘古图网络大模型可基于图网络提供更强可解释性,以适应敏感场景(如工业、医疗、金融等)的需求通过选择基模型或者微调图网络,直接将盘古图网络大模型迁移至新场景使用盘古图网络大模型的自动学习能力可以适用于不同行业和领域中的不同任务,使得一个模型能够应用于多个任务通过删减、增加基模型,实现盘古图网络大模型的终身学习高泛化终身学习高精度高可解释性冷启动43盘古图网络大模型整体架构如下图所示:图:盘古图网络大模型整体架构盘古图网络大模型的顶层设计,主要分为基模型构建和图网络融合两个部分。在基模型构建部分,模型会自动使用超采样的不同数据集来训练不同的基模型:在这个过程中,不同基模型的超参数通过 AutoML 的相关技术进行搜索(图中的不同颜色的箭头表示不同的数据流,不同颜色的框中表示不同的基模型),减轻了开发者的调参压力。而在图网络融合部分,每个基模型根据输入数据进行预测,而不同的预测结果在图网络中被融合起来,得到最终的输出。该方案的优势在于,图网络中的基模型可以任意增减,而不管如何增减基模型,都不会对图网络的汇聚产生影响,因为图网络本身对于输入的基模型数量不敏感。基模型功能:稀疏链接,分区处理不同分布 模态数据技术:automl,bagging,boosting,rf,cnn,tra.优势:终身学习,课程学习,并行训练推理.图网络功能:中枢协同不同分布 模态模型技术:graph,set,tree,mlp,transformer.优势:对分区数量不敏感,更鲁棒.123412341234数据44为了让开发者更方便地使用这套框架,盘古图网络大模型在代码实现层面进行了架构的良好设计,整体代码结构清晰,易于阅读和维护。图:盘古图网络大模型代码结构示意图上图展示了盘古图网络大模型的基本代码逻辑。系统整体由两部分组成,基模型构建和图网络融合。其中,基模型选取通过 BasicAlgorithm 产生对应算法池内的对应算法和搜索空间,之后使用 HyperparamFind 类进行超参数搜索,之后将搜索好的基模型输入 StackNet 训练该层的层次网络,并输出结果。该结果将作为下一次的输入重复进行新的基模型选择与超参搜索,在得到多个完整的基模型组成的层次网络的输出后,使用图神经网络进行信息聚合,得到输出结果。同时我们也可以将其他训练好的基模型,通过 add_base_algorithm方便地加入其中,进行图网络汇聚(例如图 1 中的虚线的 ModelOutput5),而不需要更改其他基模型、层次网络以及图神经网络。这样的特点,使得盘古图网络大模型能够很容易地应用于各种差异较大的任务。在下一章节,我们会展示盘古图网络大模型的若干实际应用案例。GNNStackNetClassificationBasicAlgorithmRegressionBasicAlgorithmHyperparamFindadd_base_algorithmLayerOutputLayerOutputFinalOutputXGBLGBRFMLP.XGBLGBRFMLP.Modeloutput3Modeloutput1Modeloutput2Modeloutput4Modeloutput5GNN Base model fusionBase model selection45盘古大模型应用案例47TFDS 是 Trouble of moving Freight car Detection System 的缩写,即货车故障轨旁图像检测系统,由检测信息采集、信息处理传输和列检检测中心等设备构成,通过高速像机阵列,拍摄列车车底和侧下部的全部可视信息,经数字化处理后显示于检测中心的信息终端上,通过人机结合的方式,对抓拍后货车车辆的图像进行分析,实现故障检测功能。全路约有 6000 人动态检车员承担着对 TFDS 检测设备所拍摄车辆图像的分析工作。庞大的检车员数量造成每个路局的资金负担。当前,以人均年工资支出约为 15 万元计算,则全路每年在该领域的支出近 10 亿元;同时,车辆故障分析工作强度大、难度高,对车辆专业理论与实际运用需要有很好的水平,要求动态检车员在短时间完成整列车的故障分析,确保整列车的运行安全。TFDS 图像自动识别从 2007 年就开始尝试采用图像自动识别技术进行研究,当时从故障部件的边缘及灰度面积进行,受故障形态多变、图像质量差异大、车体污染等影响,识别结果一直不理想,而且只能对故障形态非常明显的故障进行识别,如:截断塞门手把关闭故障,并采 SVM(支持向量机)技术,识别率才达到80%以上,但对于其他故障,一直没有好的解决办法。因此,当前各路局车辆段都还是采用人工分析方式,TFDS 的智能分析需求并没有得到很好的满足。3.1 视觉大模型案例:TFDS 图像自动识别48基于盘古行业预训练模型的铁路 TFDS 开发方案整车故障综合分析部件目标检测故障识别语义相似样本聚集行业预训练行业预训练部件位置信息基于先验的模板匹配部件故障分类关键点检测局部故障检测大面积地板破损、异物、形变TFDS 行业预训练部件定位模板匹配故障识别异常检测图像质量评估整车综合分析增强图像亮度特征提取图像正常综合判别质量评估模型过曝、欠曝等等级化语义聚集盘古行业预训练模型图像质量评估异常检测部件丢失、错位、出现异常部件等算法识别预报故障形变、折断、脱落等角度、尺寸等故障破损、裂缝部件定位故障识别行业预训练49上图展示了盘古视觉大模型在为 TFDS 定制的解决方案。依托于盘古行业预训练大模型,我们定制化地开发了整体解决方案,包括车型筛选、工位分类、配件筛选、图像质量评估、已与车型先验的模板匹配、多车级联分析等模块,其中盘古大模型核心解决方案包含以下组成部分:基于盘古视觉大模型的整体解决方案,在 5T 检测车间集中作业分析的 14 条线路进行了验证。在 2021 年 9月 19 日至 2021 年 10 月 20 日期间,由 5T 检测车间动态检车员预报并经组长确认为提报故障的数据样本(故障图片)共计 32007 张。在测试环境下,这些故障图片与大量正常图片混合,送入盘古大模型进行判断。如下表所示,实测结果表明,当前盘古大模型的识别精度已经超过人类检测员水平。拦停重点一般准确预测119漏报1故障总数120识别率99.17%识别率98.24%识别率99.45%故障总数28786故障总数3101漏报506漏报17准确预测28280准确预测3084行业预训练模型车辆拆分自动增强和评估模板匹配故障定位、识别根据整列车图像,定 位 出 每 辆 车 的 图像利用百万级无标注铁路行业生成铁路行业预训练模型图 像 进 行 自 动 评估,对正常图像做进一步故障识别,非正常图像返回人工审核根据已知的车型信息建立零部件的相对位置模板,预报部件位置异常(丢失、错位)基于铁路行业预训练大模型,结合目标检测、图像识别框架,进行部件定位、故障识别50销售在许多行业中都是十分重要的角色,包括银行、保险、汽车、地产等,销售的水平直接影响企业的业绩。销售要求具备优秀的语言能力,一方面要理解客户潜在的意图,推荐客户可能感兴趣的产品,另一方面要运用合理的表达方式,突出产品的优点,刺激客户的购买意向。在传统销售场景中,往往以结果作为唯一评价指标,无法对销售的中间过程进行监测,导致客户的潜在购买意图没有被充分挖掘,低水平销售不清楚短板在哪里,难以找到提升方向,高水平销售的成功经验也难以总结。为了改善这一现象,我们将盘古语音语义大模型引入销售过程中,利用大模型强大的语音识别、语言理解、语言生成能力,对销售人员进行赋能。我们对销售和客户的对话内容进行实时处理,首先利用语音模型得到对话内容,再利用语义模型进行分析。对于客户侧,我们分析其购买意向,避免在低意向客户身上花费太多时间,同时分析其潜在购买意图,推荐他可能感兴趣的产品。对于销售侧,我们分析销售人员的讲解内容,避免产品关键信息的遗漏,帮助企业了解每名销售的完成情况,同时为销售推荐恰当的话术,以提升其表达能力。在销售辅助系统的帮助下,可以使初级销售的产能提升 50%左右,中级销售的产能提升 10%到 30%,客户成单率提升 2 到 3 倍。3.2 语音语义大模型:赋能智慧销售 深入业务流程的销售辅助闭环 提升初级销售的产能高达 50%,中 级 销 售 产 能 100%线下银行网点依然适用 普通销售人员和精英销售人员业绩差异相当大 企业缺乏有效手段及时发现每名销售的短板并及时给予指导,造成大量业绩损失循环智能的解决方案和业务结果业务场景挑战在银行、保险的线上&线下网点销售场景,借助销售实时辅助系统,提升人员产能 10P%执行监督实时辅助话术挖掘数据采集51依托于大模型的通用性和泛化性,我们可以将该系统迁移到各个行业中,性能保持稳定。除 B 端场景外,语音语义大模型也瞄准 C 端的多个场景进行发力,包括语音助手、自动问答、对话生成等。由于在预训练中学习过海量的百科类数据,模型中存储了大量通用知识,可以针对特定问题生成合理的答案。如提问“北京有哪些好玩的景点”,模型可以给出“故宫”、“长城”、“798 艺术区”等答案。此外,模型还具备聊天能力,可以生成合理的多轮对话回复。在保险的销售场景,借助名单意向预测和产品推荐系统,实现销售转化率 2x3x 创造性地基于过往沟通内容与成单结果进行意向预测 通过未成交名单意向排序和已成交客户增购意向排序及产品推荐,实现转化率 2x3x 适用于电销、网销、代理人等多种销售渠道 销售人员在“低意向客户”上浪费了大部分精力,销售转化率难提升 产品推荐完全基于人工经验,未经数据验证循环智能的解决方案和业务结果业务场景挑战52一网统管事件工单分配是每个城市运营中必不可少的业务之一。通过对工单分配,可以有效地安排对应部门处理城市当中发现的问题,缩小发现事件和处理事件之间的时间差。当前,一网统管的事项类别分布十分广泛,多达 300 类;此外,大规模城市往往每天都面临着大规模事件工单进行分发,因此事件工单的智能分配是非常关键的问题。事件工单的输入信息,往往是网格员通过巡查上报(拍照 描述)或者市民通过随手拍上报(图片 文本描述)而形成。在使用小模型时,这些事件的分类精度较低,因而产生了大量错误分类,导致事件没有分配到对应的处置单位中,严重影响事件的处理效率。此外,由于事件分类缺乏国家标准,不同城市的事件类别也有一定的特异性;如果使用小模型,就会需要对每个城市做一次数据的重新收集和模型迭代训练,耗时耗力,并不便于城市功能智能分配系统的快速部署。盘古多模态大模型的出现,给了城市事件工单智能分配统一解决方案。基于自研算法,盘古多模态大模型能够在大规模通用图文配对数据上进行预训练。基于预训练模型,就可以在网格员或者市民上传的图片或者文本上抽取有效信息,进而与相应类别的图像或者文本特征进行相似度匹配、关联。通过这种方式,系统甚至可以在零样本标注条件下,解决一网统管事件智能分配系统在各城市应用部署的冷启动、缺乏样本标注等问题,使得一个模型方案就可适配所有城市的业务。同时大模型带来的高泛化能力也使得最终事件分类精度较高,同时伴随着边用边学功能来积累历史工单能够进一步提升模型效果。最终,在该方案下,盘古多模态大模型相较于小模型在事件智能分配上识别精度提升 15%以上,识别精度达到专家水平,取得了客户的广泛认可。当前该业务系统已经在部分省市展开试点验证。3.3 多模态大模型:一网统管事件工单分配53传统流程每个城市均需重新迭代 工作量大 周期长城市 1数据收集、标注耗费大量时间模型重新训练模型部署城市 2数据收集、标注耗费大量时间模型重新训练模型部署解决冷启动 效率高 成本低基于多模态大模型的流程城市 1城市 2城市 3模型部署模型部署通用多模态数据多模态大模型训练模型部署543.4 图网络大模型:水泥生产系统的 自动控制水泥生产需要不断根据窑内相关信息,调整系统的 CV(control variables,可控变量)设定值。在传统生产过程中,这一过程由人工根据设定值和经验手动调节,无法做到实时。而自动化、实时的调节,需要预测器与求解器相结合,由预测器提供准确的窑内条件,而求解器提供 CV 值条件下相关指标的预测结果,并将该结果提供给求解器产生下一个 CV 值,直到找到符合约束的 CV 值输入窑内。这一过程可以视为优化问题,优化目标是能耗最小,约束是相关产品的产量和质量。盘古图网络大模型应用于水泥生产系统时,可以根据水泥窑内实时数据和求解器生成对应的 CV 设定值,从而精准预测当前窑内情况下,相应的 CV 设定值需要的煤耗以及产出水泥的质量。这些信息可以辅助优化过程计算出能耗更低、质量更有保证的水泥生产 CV 设定值,从而实现节能增产的目标。具体流程如下图所示:图:盘古大模型在水泥能耗优化中使用的流程图盘古水泥大模型求解器优化,产生新的CV 设定值窑头煤耗预测结果窑尾煤耗预测结果质量预测水泥窑最优 CV 值窑内实时数据CV 设定值55如下表所示,与传统方法相比,盘古图网络大模型显著提升了 CV 值的预测准确率:R2(越大越好)原版算法盘古 Graph工况 0窑头煤耗0.2180.511窑尾煤耗-1.6660.147质量预测0.0070.534工况 1窑头煤耗0.3540.661窑尾煤耗-1.2350.098质量预测-0.3070.47156图:盘古大模型在焦化系统在使用的示意图3.5 图网络大模型:炼焦系统的自动控制配煤是炼焦的成本控制的关键,而现阶段焦化行业传统配煤方式无法全局掌握各环节的数据,很大程度上依赖于专业配煤师的经验以实现准确配煤。同时,基于传统单一配煤理论的实现方法,很难有效应对煤质混杂愈加频繁的情况。将盘古图网络大模型应用于炼焦系统时,可以将多种配煤理论作为机理模型,作为基模型的一部分输入大模型,与优化方案结合,实现高精度焦炭质量预测和最优配煤比例的高效寻找。引入机理模型后,模型不仅取得了更高的精度,还具有更强的可解释性。适配于焦化行业的图网络大模型的整体应用流程如下图所示:盘古焦化大模型产线数据工艺数据数据预处理及特征工程寻找全局较优解较优解持续迭代优化全局最优解其他生产数据各指标基础机理模型训练优化算法软测量模型57展望未来,大模型的机遇与挑战并存59事物的发展往往体现着历史的必然性。就像人工智能是计算机科学发展到一定阶段后与认知科学结合的产物那样,预训练大模型的出现,是人工智能与大数据、大算力结合的必然结果。如果仅仅局限于深度学习的范畴,那么我们可以这样说:大模型的出现和繁荣,既是当前深度学习的顶峰,也代表着深度学习算法的瓶颈。对大模型的需求,本质上是对大数据的需求:当前的人工智能算法,尚无法高效地建模不同数据之间的关系,并以此解决模型泛化的问题;取而代之地,通过收集并处理大量训练数据,人工智能算法能够通过死记硬背的方式,一定程度上提升泛化能力。从这一角度看,大模型对数据的应用,依然处于比较初级而低效的水平。可以预见到,这种方式的边际效应是明显的:数据集越大、模型越大,提升同等精度所需要的代价就越大。要想通过预训练大模型真正解决人工智能问题,看来也是不太现实的。虽然预训练大模型存在上述局限性,我们也应该看到,大模型给人工智能的落地方案带来了思路上的变化。在实际落地中,尤其针对小样本、长尾分布等场景,预训练大模型与预置工作流配合,往往能够达到很好的效果在预训练数据的加持下,自动生成算法的性能甚至能够超出一般人工智能算法工程师手工设计算法的性能,并且在模型调优所需要的计算复杂度方面也具有相当优势。这说明,预训练大模型在人工智能算法自动化的方向上,又往前迈了一小步。假以时日,在学界和业界的共同孵化下,预训练大模型将成为基于深度学习的算法底座,支撑更多人工智能应用落地,节约更多人力和算力资源。60当然,要实现真正的通用人工智能,业界还有很长的路要走。除了在数据集构建、模型设计乃至评测标准方面持续演进,业界首先需要做的,是抛弃预训练大模型 参数量至上 的评判标准。我们回顾 2010 年左右的计算机视觉算法,可以发现,当时不少视觉算法的参数量也很大;然而,这些大参数量的模型并没有被冠以大模型的称呼,也没有在实际应用中取得很好的效果。在 2012 年举办的第二届 ImageNet 大规模视觉识别竞赛中,仅拥有 6000 万参数的深度神经网络模型,以巨大优势战胜了拥有 10 亿参数的线性 SVM 模型,并随即开启了深度学习在计算机视觉领域的统治。因此,参数量并不是评判模型能力的最好标准如何用好参数、将模型的鲁棒性做得更好,才是我们真正应该关注的问题。技术是跳跃式发展的。在人工智能领域,上一次显著的技术跳跃正是深度学习。然而业界也已经清楚地认识到,深度学习不是终点,基于深度学习的大模型也不是解决任何问题的灵丹妙药。要想达到基本的通用人工智能,像深度学习这样的技术跳跃,至少还需要发生两次。笔者希望,本白皮书的内容能够启发业界的研究者和工程师们:让我们在大模型的基础上更进一步,将人工智能导向更加光明的未来!华为技术有限公司深圳龙岗区坂田华为基地电话: 86 755 28780808邮编:免责声明本文档可能含有预测信息,包括但不限于有关未来的财务、运营、产品系列、新技术等信息。由于实践中存在很多不确定因素,可能导致实际结果与预测信息有很大的差别。因此,本文档信息仅供参考,不构成任何要约或承诺,华为不对您在本文档基础上做出的任何行为承担责任。华为可能不经通知修改上述信息,恕不另行通知。版权所有 华为技术有限公司 2022。保留一切权利。非经华为技术有限公司书面同意,任何单位和个人不得擅自摘抄、复制本手册内容的部分或全部,并不得以任何形式传播。商标声明 ,是华为技术有限公司商标或者注册商标,在本手册中以及本手册描述的产品中,出现的其它商标,产品名称,服务名称以及公司名称,由其各自的所有人拥有。
点击查看更多中国工业互联网研究院:2023人工智能大模型在工业领域知识问答稳定性评测报告(31页).pdf精彩内容。
No.202306中国信息通信研究院2023年9月中国中国算力发展指数算力发展指数白皮书白皮书(20232023 年年)版权声明版权声明本白皮书版权属于中国信息通信研究院,并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点的,应注明“来源:中国信息通信研究院”。违反上述声明者,本院将追究其相关法律责任。本白皮书版权属于中国信息通信研究院,并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点的,应注明“来源:中国信息通信研究院”。违反上述声明者,本院将追究其相关法律责任。前前 言言 当前,算力的战略性地位和支撑性作用正成为普遍共识。算力作为数字经济时代的核心生产力,正在加速数字经济与实体经济深度融合。全球算力发展应用多元化、供需不平衡的挑战仍在持续,以 AIGC1为代表的人工智能大模型等新应用、新需求的崛起,推动算力规模快速增长、计算技术多元创新、产业格局加速重构。2022 年是“十四五”关键之年,面对复杂严峻的国际形势和经济下行压力等多重考验和挑战,我国算力发展水平实现稳步提升,整体呈现以下四方面特征:算力规模稳步扩张,智能算力保持强劲增长。从基础设施侧看,我国通用数据中心、智能计算中心持续加快部署,2022 年基础设施算力规模达到 180 EFlops,位居全球第二,在用数据中心机架规模超过650 万标准机架,已投运智能计算中心达到 25 个,在建智能计算中心超20 个。从计算设备侧看,我国近六年累计出货超过2091 万台通用服务器,82 万台AI 服务器,算力总规模达到302 EFlops,全球占比33%,增速达50%,其中智能算力保持稳定高速增长,增速达72%。算力产业稳健发展,算力创新能力持续增强。依托超大规模市场优势,我国实现了算力水平和供给能力的大幅提升,形成体系较完整、规模体量庞大、创新活跃的产业体系。我国以计算机为代表的计算产业规模达 2.6 万亿元,约占电子信息制造业的 20%,形成覆盖底层软 1AIGC:Artificial Intelligence Generated Content,生成式人工智能 硬件、整机系统及平台应用的产业生态,涌现一批先进计算技术创新成果,算法模型、计算芯片、计算软件、系统平台等环节持续取得突破并深入应用,前沿计算技术研发和产业化不断推进。发展环境不断完善,行业赋能效益日益显现。我国网络基础设施建设稳步推进,省际出口带宽持续扩容,5G、移动物联网等覆盖更广用户,围绕算力枢纽节点的网络设施开始构建,算力协同能力逐渐增强。大模型的崛起助推数据资源共享,行业模型深度挖掘数据赋能作用。我国消费和行业应用算力需求增长迅猛,互联网依然是算力需求最大的行业,在通用算力和智能算力中占比分别为 39%和53%,算力应用场景向工业制造、城市治理、智能零售、智能调度等领域延伸。算力拉动经济增长,各地持续加快算力布局。我国算力发展为经济增长提供智能升级、融合创新的新动力。我国京津冀、长三角、粤港澳大湾区、成渝双城经济圈等区域算力发展保持领先水平,其中广东、北京、江苏、浙江、山东、上海仍然位于第一梯队。中西部地区技术创新、算力应用、产业基础等制约算力发展的条件不断得到改善。2023 年白皮书在 2022 年的基础上,加强了全球和我国算力发展的研究,客观评估我国整体、各省份及各城市现阶段的算力发展水平,进一步给出我国算力二十强市榜单,希望为各地推进算力技术产业、基础设施建设及算力应用发展提供参考。白皮书仍有诸多不足,恳请各界批评指正。目目 录录 一、全球算力快速发展,算力竞争不断加剧.2(一)算力规模稳定增长.2(二)算力产业繁荣发展.4(三)算力技术创新活跃.7(四)算力赋能不断深化.9(五)算力竞争持续加剧.12 二、我国算力稳步增长,算力赋能作用凸显.14(一)算力规模持续壮大,智能算力保持高速增长.14(二)供给水平大幅提升,先进计算创新成果涌现.17(三)发展环境完善优化,网络体系保障数据流动.19(四)赋能作用深入发挥,数实融合发展潜力广阔.22(五)算力拉动经济增长,数字经济发展动能强劲.25 三、中国算力发展指数评估.27(一)指标建立依据.28(二)指标体系建立.29(三)我国算力发展评估.31(四)算力发展指数与经济的关系.41(五)我国算力二十强市.43 四、基建创新双线并举,全面赋能数字经济高质量发展.45(一)赋能区域发展,科学布局基础设施.45(二)突破核心技术,强化算力保障能力.45(三)加快企业培育,持续完善产业生态.46(四)加强政策保障,优化算力发展环境.46(五)激活应用潜力,赋能行业转型升级.47(六)坚持国际合作,维护产业安全稳定.47 附件一:算力指数测算框架.49 附件二:数据来源.56 图图 目目 录录 图 1 算力发展研究体系.2 图 2 全球算力规模及增速.3 图 3 先进计算进入智能计算时代.8 图 4 2022 年全球算力规模与 GDP 关系.12 图 5 2022 年全球算力规模分布情况.13 图 6 我国算力规模及增速.17 图 7 我国算力内部结构.17 图 8 我国移动通信基站发展情况.20 图 9 我国 IT 硬件、软件、服务支出规模.21 图 10 我国各行业算力应用分布情况.23 图 11 2017-2022 年移动互联网流量及月 DOU 增长情况.25 图 12 2016-2022 年全球和我国算力规模与 GDP、数字经济规模关系.26 图 13 中国算力发展指数 2.0.28 图 14 2022 年中国部分省份算力发展指数.32 图 15 2022 年中国部分省份算力规模分指数.34 图 16 2022 年中国部分省份基础设施算力规模.35 图 17 2022 年中国部分省份算力产业分指数.37 图 18 2022 年中国部分省份算力技术分指数.38 图 19 2022 年中国部分省份算力环境分指数.39 图 20 2022 年中国部分省份算力应用分指数.40 图 21 算力发展指数与 GDP 关系.42 表 目 录 表 1 中国算力发展指标体系.29 表 2 中国算力二十强市.44 中国算力发展指数白皮书(2023 年)1 算力是数字经济时代新的生产力,不断为加强数字政府建设、激活数据要素潜能以及千行百业数字化转型注入新动能,助推经济社会高质量发展。据我们测算,算力每投入 1 元,将带动 34 元的经济产出。当前算力发展应用多元化、供需不平衡的挑战仍在持续。一方面以大模型训练为代表的新兴技术和应用快速崛起、反复迭代,助推数据量和算力需求爆炸性增长,加快算力从芯片到架构再到系统的全方位升级。另一方面,算力的提升仍面临多重挑战,以延续摩尔定律为主的固有升级路线对算力规模提升作用日渐乏力,新技术新架构的演进和产业化方兴未艾,算力供需之间的差距依然很大,计算技术亟需在理论架构和软硬件实现层面产生质的飞跃。在数字经济时代,算力规模是数字化生产力发展水平的重要指标,是生产力;算力产业是算力发展的基础底座,是竞争力;算力技术是算力创新发展的源泉,是驱动力;算力环境是算力发展的重要条件,是辅助力;算力应用反映了算力发展的需求状况,是牵引力。以先进计算为代表的算力技术和算力产业为算力规模发展提供坚实支撑,算力环境为算力规模、算力技术和算力产业的发展提供肥沃土壤,算力应用拉动算力规模和算力产业的增长,驱动算力技术升级,五大要素相互促进、协同发展。基于算力的内涵和特点,2023 年白皮书从算力规模、算力产业、算力技术、算力环境和算力应用五个维度加强了对全球和我国算力发中国算力发展指数白皮书(2023 年)2 展的研究,客观评估我国整体、各省份及各城市现阶段的算力发展水平,进一步给出我国算力二十强市榜单,希望为各地推进算力技术产业、基础设施建设及算力应用发展提供参考。来源:中国信息通信研究院 图 1 算力发展研究体系 一、全球算力快速发展,算力竞争不断加剧 以 AIGC 为代表的人工智能应用、大模型训练等新需求、新业务的崛起,深刻影响全球经济社会发展变革,推动算力规模快速增长、计算技术多元创新、产业格局加速重构。算力助推全球数字经济发展的生产力作用更加凸显,成为各国战略竞争中不可忽视的新焦点。(一)算力规模稳定增长(一)算力规模稳定增长 全球算力规模保持高速稳定增长。在以万物感知、万物互联、万物智能为特征的数字经济时代背景下,全球数据总量和算力规模继续呈现高速增长态势。根据 IDC 数据,2022 年全球数据总产量 81 ZB,过去五年平均增速超过 25%。经中国信息通信研究院测算,2022 年中国算力发展指数白皮书(2023 年)3 全球计算设备算力总规模达到 906 EFlops,增速达到 47%,其中基础算力规模2(FP323)为 440 EFlops,智能算力规模4(换算为 FP32)为451 EFlops,超算算力规模5(换算为 FP32)为 16 EFlops。预计未来五年全球算力规模将以超过 50%的速度增长,到 2025 年全球计算设备算力总规模将超过 3 ZFlops,至 2030 年将超过 20 ZFlops。来源:中国信息通信研究院、IDC、Gartner、TOP500 图 2 全球算力规模及增速 算力多元化发展持续推进。多样化的智能场景需要多元化的算力,以 AIGC 为代表的人工智能应用、大模型训练等新应用、新需求快速崛起都对算力提出更高要求。基础算力方面,在全球数据中心快速发展的推动下,基础算力规模持续增长,其中云计算、边缘计算等场景 2基础算力规模按照全球近 6 年服务器算力总量估算。全球基础算力=近六年(年服务器出货规模*当年服务器平均算力)。3FP32 为单精度浮点数,FP16 为半精度浮点数,FP64 为双精度浮点数。4智能算力规模按照全球近 6 年 AI 服务器算力总量估算。全球智能算力=近六年(年 AI 服务器出货规模*当年 AI 服务器平均算力)。5超算算力规模主要是基于全球超级计算机 TOP500 数据,并参考超算生产商的相关数据估算。中国算力发展指数白皮书(2023 年)4 依然是基础算力的主要应用场景。根据 IDC 数据,2022 年全球云计算 IaaS 市场规模增长至 1155 亿美元,同比上涨 26.2%。智能算力方面,近年新推出的大语言模型所使用的数据量和参数规模呈现“指数级”增长,带来智能算力需求爆炸式增加。以 GPT 大模型为例,GPT-3模型参数约为1746亿个,训练一次需要的总算力约为3640 PF-days,即以每秒一千万亿次计算,需要运行 3640 天。2023 年推出的 GPT-4参数数量可能扩大到 1.8 万亿个,是 GPT-3 的 10 倍,训练算力需求上升到 GPT-3 的 68 倍,在 2.5 万个 A100 上需要训练 90-100 天。现阶段训练主要依赖以 A100/H100 为代表的高性能 GPU 算力。超算算力方面,十年千倍定律依然在持续,橡树岭国家实验室(ORNL)的Frontier仍然是全球TOP500上唯一的百亿亿次级机器,通过优化GPU运行效率、提升系统能效比等方式,其运算性能从 2022 年首发时的1.102 EFlops,提升至 2023 年的 1.194 EFlops,提升幅度达到 8.4%。随着人工智能技术产业的发展,基础算力、智能算力、超算算力相互融合渗透,云计算中心和超算中心加速部署 GPU 等智算单元,以满足越来越复杂多样的算力需求。(二)算力产业繁荣发展(二)算力产业繁荣发展 全球数字经济持续提速,服务器市场保持增长。整机方面,根据IDC 数据,2022 全球服务器市场出货量和销售额分别为 1516 万台和1215.8 亿美元,同比增长 12%和 22.5%。戴尔在全球服务器市场上位居榜首,市场份额达到 16.0%,HPE/新华三、浪潮、联想和 IBM 分中国算力发展指数白皮书(2023 年)5 列二到五位,市场份额分别为 11.1%、8.3%、6.4%和 5.0%。芯片方面,服务器芯片市场仍被 X86 架构所主导但出现松动,ARM 市场份额已达 8%,较 2021 年增加 6 个百分点。英特尔在服务器用 CPU 领域的主导地位受到削弱,AMD 市场份额持续提升。根据 Counterpoint数据,英特尔、AMD 市场份额分别为 71%、20%。英伟达、亚马逊、华为、阿里等国内外巨头推出的自研 ARM 服务器 CPU 得到更大规模应用,预计未来 ARM 服务器市场份额将进一步提升,成为通用算力的重要补充力量。通用服务器受 AI 需求暴涨、全球整机支出向 AI倾斜影响,通用服务器市场被进一步压缩,2023 年上半年通用服务器市场和 CPU 市场规模均出现下滑,其中二季度 CPU 市场同比下滑13.4%,预期 2023 年通用算力增速将放缓。训练数据规模和模型复杂度暴增,推动 AI 服务器需求急速增长。整机方面,据 IDC 数据,2022 年全球 AI 服务器市场规模达 183 亿美元,同比增长 17.3%,与全球 AI 整体市场(含硬件、软件及服务)增长率持平,依然是 AI 整体市场增长的重要组成部分。在 2022 年上半年全球 AI 服务器市场中,浪潮、戴尔、HPE 分别以 20.2%、13.8%、9.8%的市占率位列前三,三家厂商总市场份额占比达 43.8%,联想和华为位列第四和第五,市场份额分别为 6.1%和 4.8%。芯片方面,根据 Precedence Research 数据,2022 年全球 AI 芯片市场规模为 168.6亿美元,其中英伟达占比超过 80%;全球 AI 服务器加速芯片市场主要被英伟达占据,市场份额超过 95%。传统芯片巨头积极应对大模型中国算力发展指数白皮书(2023 年)6 训练爆发机遇,持续加速完善 AI 芯片产品体系,抢占多样性算力生态主导权。英特尔发布第四代至强处理器 SapphireRapids,全面对人工智能算力进行加速;AMD 发布面向 AI 推理和训练芯片 MI300A;英伟达推出加载 Transformer 引擎芯片 H100。预期 2023 年全球 AI 算力规模将保持高速增长。2023 年上半年,在全球半导体市场低迷的背景下,以 GPU 为代表的 AI 芯片和 AI 服务器实现逆市增长,其中英伟达二季度营收同比增长 101%,实现翻番。据 Gartner 预测,2023 年全球 AI 芯片市场将同比增长 20.9%;据 TrendForce 预测,2023 年 AI服务器出货量将同比增长 38.4%。E级超算加速落地,超算厂商持续推出E级解决方案。整机方面,超算设备厂商纷纷加强产业整合和布局,在 TOP500 的榜单上,联想是目前最大的超级计算机制造商,共有 170 台6,全球占比 34%;HPE有 100 台入围,占比 20%,排名第二;浪潮、Atos、戴尔以 43 台、43 台、24 台分列三到五位,占比 8.6%、8.6%、4.8%。英特尔与美国阿贡国家实验室合作完成超级计算机 Aurora 安装,其可提供 2 EFlops的 FP64 算力,将成为全球首台每秒计算 200 亿亿次的超级计算机。英伟达发布超级计算机 DGX GH200,其算力规模达到 1 EFlops,支持万亿参数 AI 大模型训练。芯片方面,CPU 仍以英特尔和 AMD 为主,TOP500 榜单上使用英特尔 CPU 的超算高达 360 台,占比 72%,121 台使用 AMD 处理器,同比增加 28 台。此外异构计算芯片在超级 6其中一台为与 IBM 合建,一台为与富士通合建 中国算力发展指数白皮书(2023 年)7 计算机中应用越来越多,TOP500 榜单上共有 185 台超级计算机使用了加速器/协同处理器技术,同比增加 17 台。其中 168 台使用了英伟达芯片,11 台采用 AMD 芯片。(三)算力技术创新活跃(三)算力技术创新活跃 多技术协同升级推动先进计算持续发展。一方面,计算技术加速演进,异构计算成为智能计算周期高算力主流架构。在摩尔定律演进放缓、颠覆技术尚未成熟的背景下,以 AI 大模型为代表的多元应用创新驱动计算加速进入智能计算新周期,进一步带动计算产业格局的重构重塑。智能计算时代,搭载各类计算加速芯片的 AI 服务器、车载计算平台等将成为算力的主要来源。另一方面,先进计算体系化创新活跃,创新模式和重点发生转换,呈现出软硬融合、系统架构创新的特征。技术创新持续覆盖基础工艺、硬件、软件、整机不同层次,包括 4nm 及 3nm 工艺升级,互联持续高速化、跨平台化演进,软硬耦合加速智能计算进入 E 级时代。长期看,随着量子计算、光计算、类脑计算等前沿计算技术创新步伐的不断加快,2035 年后先进计算将逐步开启非经典计算规模化落地应用的发展阶段。中国算力发展指数白皮书(2023 年)8 来源:中国信息通信研究院 图 3 先进计算进入智能计算时代 人工智能计算芯片持续快速发展。一方面,以 GPU 代表的通用加速芯片更新架构工艺持续升级性能,同时专用加速芯片仍在不断发展。大模型训练助推人工智能芯片向更深更广的应用领域落地,全场景芯片解决方案不断升级迭代,英伟达通过升级 Tensor Core、引入Transformer 引擎等架构创新方法,更新迭代 CUDA 并行计算架构软件算子库,实现对多种应用领域良好的支持;谷歌升级针对张量运算定制开发的专用加速芯片 TPU v5e,单位价格具备 v4 加速芯片 2 倍的训练性能和 2.5 倍的推理性能,将成为支持 LaMDA、MUM、PaLM等大规模语言模型的全新主力产品。另一方面,芯粒(Chiplet)和高带宽内存(HBM)技术助力智能算力破局跨越发展。芯粒可以实现不同工艺制程、不同类型芯片间立体集成,实现更大芯片面积、更大存储容量和更快互连速度。英伟达发布的 GH200 超级芯片,将 72 核的Grace CPU、H100 GPU、96GB 的 HBM3 和 512 GB 的 LPDDR5X 集中国算力发展指数白皮书(2023 年)9 成,拥有高达 2000 亿个晶体管。HBM 已成为高算力芯片不可或缺的关键组成部分,SK 海力士通过 TSV 硅穿孔技术堆叠了多达 12 颗DRAM 芯片,实现带宽达 819 GB/s 的 HBM3 量产,成为英伟达高性能 GPU H100 主要供应商。前沿计算产业化螺旋式推进。存算一体、量子计算、光计算等前沿颠覆计算技术创新活跃,逐渐在部分领域展现出算力优越性,部分技术路线产业化进程加快。存算一体不仅能满足边缘侧低功耗需求,还具备大算力潜力,可应用于无人车边缘端以及云端推理和培训等场景。量子计算基础技术持续演进,谷歌将 53 个量子比特的超导量子计算系统扩展至 72 个量子比特,并且成功验证了量子纠错方案的可行性。量子计算在金融领域已取得初步商业化应用,在反欺诈、反洗钱等金融风控领域的场景具备比经典计算更快的计算速度和更高的客户画像精度。光计算方面,目前适用于人工智能等对计算精度要求不高场景的模拟光计算是主要技术路线,但包括量子、类脑等非经典计算路线也均在探索与人工智能的结合,光计算并不具备显著技术优势,部分光计算企业转向激光光源、光子网络等基础技术的研究,以寻求新应用领域的开拓。(四)算力赋能不断深化(四)算力赋能不断深化 算力不仅是电子信息制造业、软件和信息技术服务业、互联网行业、通信行业等信息技术产业快速发展的动力来源,也不断推进制造、交通、教育、媒体等传统产业数字化转型升级、带动产业产值增长、中国算力发展指数白皮书(2023 年)10 促进生产效率提升,并在商业模式创新、用户体验优化等方面发挥巨大作用。算力成为数字产业化发展的发动机。算力作为数字经济核心产业的重要底座支撑,算力供给体系和算力基础设施的建设带动上下游产业链迅速发展。集成电路方面,据 WSTS7统计,2022 年全球计算相关集成电路销售额为 1766 亿美元,同比增长 14%。服务器方面,2022年数据中心基础设施投资额稳定上涨,全球服务器市场销售额达1215.8 亿美元,同比增长 22.5%,单台服务器价值上升 9%。云计算方面,在算力上云、企业上云以及行业数字化转型的带动下,云原生技术加速发展,并与人工智能技术深度融合带动更广领域的应用前景。据 Garner 统计,2022 年全球云计算市场规模达 4910 亿美元,同比增长 20%,近两年平均增速 24%,持续保持高速增长态势。算力成为产业数字化转型的催化剂。算力的持续投入和算法模型、软件应用的快速演进为产业的数字化转型提供了强劲动力,算力正以一种新的生产力形式,直接改变生产方式本身。算力正加速向政务、工业、交通、医疗等各行业各领域渗透。在算力的加持下,工业数据的价值得以加速释放,智能引擎可以更好地优化生产资源、重构生产流程,提高制造业生产力。随着算力的提升,“车路协同”“车网互联”的智能网联汽车正加快发展,“安全、畅通、低碳、高效”的交通网络正在加速构建。算力对生产方式的改变已走进办公领域,微软率先发 7 WSTS,World Semiconductor Trade Statistics,世界半导体贸易统计 中国算力发展指数白皮书(2023 年)11 布 Microsoft 365 Copilot,作为一款基于 GPT-4 和 Microsoft Graph 的AI 办公助手,能够重复工作流程自动化,为用户提供了一种全新工作方式,提升工作效率,解锁生产力。算力成为全球经济增长的助推器。在数字经济时代,算力已成为继热力、电力之后新的生产力,能有效带动 GDP 增长,尽管全球 GDP增长普遍放缓,但数字经济依然保持强劲增长势头。2022 年全球算力规模增长 47%,名义 GDP 增长 3.8%,主要国家数字经济规模同比增长 7.6%,比 GDP 增速高 3.8 个百分点。全球各国算力规模与经济发展水平密切相关,经济发展水平越高,算力规模越大。2022 年算力规模前 20 的国家中有 17 个是全球排名前 20 的经济体,并且前五名排名一致,美国和中国依然分列前两位,同处于领跑者位置。与 2021 年相比,意大利、澳大利亚、巴西等国算力排名有所提升,世界第四快超级计算机“莱昂纳多”2022 年 11 月 24 日于意大利博洛尼亚正式上线,算力达到 250 PFlops。中国算力发展指数白皮书(2023 年)12 来源:中国信息通信研究院、IDC、Gartner、世界银行 图 4 2022 年全球算力规模与 GDP 关系(五)算力竞争持续加剧(五)算力竞争持续加剧 全球主要国家和地区持续加码推进算力发展。算力成为各国抢占发展主导权的重要手段,全球主要国家和地区纷纷加快战略布局进程。美国高度重视传统算力和新兴技术发展,通过国家投资和激励计划,持续巩固美国在半导体和前沿计算领域的全球领导地位。2022 年 8月,拜登正式签署芯片与科学法案,旨在巩固美国在半导体领域的地位,并强化算力基础设施应用和协同创新;2023 年国家量子计划增加对量子计算机科学和软件工程的研发投资,包括量子算法、应用程序、软件以及软件开发工具。日本从国家层面制定数据中心和量子计算技术发展战略。2023 年日本半导体、数字产业战略提出中国算力发展指数白皮书(2023 年)13 了“提高数据中心算力水平”、“战略性发展量子计算机”、“围绕云计算、量子经典混合计算、量子 AI 融合技术等推动下一代计算机发展环境建设”等多项发展建议。欧盟不断加大前沿计算技术研发和算力发展的投入力度。2022 年 7 月推出欧洲创新议程,支持量子计算打造影响力;2023-2024 年数字欧洲工作计划提出投入 1.13 亿欧元提升数据与计算能力。来源:中国信息通信研究院、IDC、Gartner、TOP500 图 5 2022 年全球算力规模分布情况 全球算力竞争加剧,全球化面临挑战。算力规模方面,经中国信息通信研究院测算,美国、中国、欧洲、日本在全球算力规模中的份额分别为 34%、33%、17%和 4%,美国、中国占比与 2021 年持平,其中全球基础算力竞争以美国和中国为第一梯队,美国在全球基础算力排名第一,其份额达 35%,中国以 27%份额排名第二,较 2021 年上升 1 个百分点;智能算力方面,中国、美国处于领先,按照近 6 年AI服务器算力总量估算,中国和美国算力全球占比分别为39%和31%;美国、中国、日本在超级计算综合性能指标方面优势明显,总算力份中国算力发展指数白皮书(2023 年)14 额分别为 47%、25%、13%。全球化方面,随着世纪疫情、地缘冲突等“黑天鹅”事件频出,全球化形势发生重大变化,世界各国均开始重视本土供应链稳定与安全,驱动全球产业链供应链格局体系发生重大变革。美西方发达国家均发布相关国家战略和政策,加大对本土产业链供应链培育和保护力度,限制关键材料、计算芯片、设计软件、制造设备出口,以维持在关键原材料、计算芯片设计、半导体制造设备等方面的领先优势,给算力技术创新及产业生态带来新挑战。二、我国算力稳步增长,算力赋能作用凸显 2022 年是“十四五”关键之年,我国在国内外多重超预期因素的冲击下,发挥超大规模市场优势,依然实现了算力规模和供给水平的稳步提升,发展环境持续优化,行业赋能效益日益显现,助推数字经济蓬勃发展。与中国综合算力指数(2023 年)围绕算力、存力、运力、环境等算力基础设施维度不同,本白皮书从算力规模、算力产业、算力技术、算力环境和算力应用等维度分析我国的算力发展水平,其中算力规模从基础设施侧和计算设备侧两个维度综合评估,更加客观、具象地描绘算力发展规模情况。(一)算力规模持续壮大,智能算力保持高速增长(一)算力规模持续壮大,智能算力保持高速增长 从基础设施侧看,数据中心、智能计算中心、超算中心加快部署。随着全国一体化算力网络国家枢纽节点的部署和“东数西算”工程的推进,我国算力基础设施建设和应用保持快速发展,根据工信部数据,中国算力发展指数白皮书(2023 年)15 我国基础设施算力规模达到 180 EFlops,位居全球第二。一是数据中心规模大幅提升。据 数字中国发展报告(2022 年)数据,截至 2022年底,我国在用数据中心机架总规模超过 650 万标准机架,近 5 年年均增速超过 30%,平均上架率达 58%,在用数据中心服务器规模超2000 万台,存储容量超过 1000 EB(1EB=1024PB)。电能使用效率(PUE)持续下降,行业内先进绿色数据中心 PUE 已降低到 1.1 左右,最低已达到 1.05 以下,达到世界先进水平。二是智能计算中心加快布局。根据中国信通院统计,截至 2023 年 6 月,全国已投运的人工智能计算中心达 25 个,在建设的人工智能计算中心超 20 个。地方依托智能计算中心,一方面为当地科研院所和企事业单位提供普惠算力,支撑当地科研创新和人才培养,另一方面结合本地智能产业发展需求,培育人工智能产业生态,推进人工智能应用创新。如西安未来人工智能计算中心已为 153 家科研机构和企业、高校提供公共算力服务,累计培养人工智能产业人才超过 1000 人次;天津人工智能计算中心于 2023 年 3 月正式上线,将孵化高水平具备核心竞争力的科研成果,打造天津“智港”人工智能示范应用。三是超算商业化进程不断提速。我国超算进入到以应用需求为导向的发展阶段,2022 年我国HPC TOP100 榜单前十名中有 6 台是由服务器供应商研制、部署在网络公司、提供商业化算力服务的超级计算机。随着互联网公司加大对超算的部署力度,我国超算主体逐渐由政府主导转向商业主导,应用从过去主要集中于科学计算、政府、能源、电力、气象等领域转向云中国算力发展指数白皮书(2023 年)16 计算、机器学习、人工智能、大数据分析以及短视频等。新兴互联网应用领域对于大规模计算的需求急剧上升,超算与互联网技术的融合不断加速。从设备供给侧看,我国算力规模持续增长。经中国信息通信研究院测算,2022 年我国计算设备算力总规模达到 302 EFlops,全球占比约为 33%,连续两年增速超过 50%,高于全球增速。基础算力稳定增长,基础算力规模8为 120 EFlops,增速为 26%,在我国算力占比为40%,其中 2022 年通用服务器出货量达到 384.6 万台,同比增长 3%,六年累计出货量达到 2091 万台。智能算力增长迅速,智能算力规模9达到 178.5 EFlops,增速为 72%,在我国算力占比达 59%,成为算力快速增长的驱动力,其中 2022 年 AI 服务器出货量达到 28 万台,同比增长 23%,六年累计出货量超过 82 万台。根据预测,到 2026 年智能算力规模将进入每秒十万亿亿次浮点计算(ZFlops)级别。超算算力持续提升,超算算力规模10为 3.9 EFlops,连续两年增速超过 30%,其中 2022 中国高性能计算机 TOP100 排在第一名的性能是上年的1.66 倍,算力达到了 208.26 PFlops,联想、浪潮、曙光以 42 台、26台、10 台超算位列国内前三。8基础算力规模按照我国近 6 年服务器算力总量估算。我国基础算力=近六年(年服务器出货规模*当年服务器平均算力)。9智能算力规模按照我国近 6 年 AI 服务器算力总量估算。我国智能算力=近六年(年 AI 服务器出货规模*当年 AI 服务器平均算力)。10超算算力规模主要是基于全球超级计算机 TOP500、中国高性能计算机性能 TOP100 数据,并参考超算生产商的相关数据。中国算力发展指数白皮书(2023 年)17 来源:中国信息通信研究院、IDC、Gartner、TOP500、HPC TOP100 图 6 我国算力规模及增速 来源:中国信息通信研究院 图 7 我国算力内部结构(二)供给水平大幅提升,先进计算创新成果涌现(二)供给水平大幅提升,先进计算创新成果涌现 算力产业加速壮大升级。经过多年发展,我国已形成体系较完整、规模体量庞大、创新活跃的计算产业,在全球产业分工体系中的重要性日益提升。当前,我国计算产业规模约占电子信息制造业的 20%以中国算力发展指数白皮书(2023 年)18 上,2022 年我国以计算机为代表的计算产业规模达 2.6 万亿元,计算技术国内有效发明专利数量位列各行业分类第一,产业高质量发展新格局正加快构建。一是整机市场份额不断攀升。通用计算领域,根据IDC 数据显示,浪潮、新华三、华为、中兴、宁畅排名我国服务器市场前五名,国产品牌市场份额合计接近 81%。智能计算领域,浪潮、新华三、宁畅排名我国人工智能服务器市场前三名,国产品牌市场份额达 79%,2022 年 MLPerf 基准评测中浪潮 AI 服务器获超半数赛道的冠军。高性能计算领域,我国超算系统占有量与制造商总装机量均保持全球领先。二是产业生态不断完善。国产芯片已初具规模,X86、ARM、自主架构 CPU 持续深化规模应用,百度、寒武纪等 AI 芯片加速迭代优化。国产操作系统逐步向金融、电信、医疗等行业应用渗透,鲲鹏生态、PKS 体系等计算产业生态日渐完善,覆盖底层软硬件、整机系统及应用等关键环节。算力创新能力不断提升。2022 年我国计算机领域发明申请近两万件,先进计算领域涌现出一批创新成果。一是基础软硬件持续突破。科技公司加速 GPU 芯片、AI 芯片自研,壁仞科技推出 BR100 系列GPU,单芯片峰值算力达到 PFlops 级别;天数智芯、沐曦、瀚博发布AI 推理芯片,支持 INT8、FP16 等多精度计算能力和视频编解码等功能;我国首个开源桌面操作系统“开放麒麟 1.0”正式发布,标志着我国拥有了操作系统组件自主选型、操作系统独立构建的能力。二是新兴计算平台系统加速布局。百度推出由 AI 计算、AI 存储、AI 容器中国算力发展指数白皮书(2023 年)19 三部分组成的百舸 AI 异构计算平台,具有高性能、高弹性、高速互联等能力。燧原科技发布针对人工智能算力应用场景的云燧智算机,集成 AI 加速硬件、管理平台及配套应用软件与服务,支持大规模并行训练和推理计算。三是前沿计算技术在实验和产业多维度突破。南方科技大学联合福州大学、清华大学研究团队在量子纠错实现突破,通过实时重复的量子纠错过程,延长了量子信息的存储时间,相关结果优于无纠错编码逻辑量子比特。本源量子发布量子计算化学编程软件包 pyChemiQ,可以帮助生物化学领域的研究人员通过量子计算的方式更快速地解决化学问题。我国推进“量子 经典”算力基础设施建设,国内首个量子人工智能计算中心太湖量子智算中心揭牌。(三)(三)发展环境发展环境完善完善优化优化,网络体系保障数据流动,网络体系保障数据流动 网络设施建设持续提升算力协同能力。2023 年中共中央、国务院印发数字中国建设整体布局规划,强调“促进东西部算力高效互补和协同联动”。在国家政策引导下,围绕算力枢纽节点的网络设施开始构建,中国移动、中国电信、中国联通纷纷加快了 400G 全光网络建设,连接东数西算枢纽节点。算力协同能力逐渐增强,据统计,目前全国已发布或建设 10 余个算力调度平台,主要由基础电信运营商、算力枢纽节点城市政府、企业及行业机构等主导建设。网络基础设施能力持续完善,截至 2022 年底,国内各省份平均互联网省际出口带宽达到 51 Tbps,年增速超 21%;已有 110 个城市建成千兆城市,5G 基站数量达 231.2 万个,实现市市通千兆,县县通 5G,村村通宽中国算力发展指数白皮书(2023 年)20 带;移动物联网终端用户数达到 18.45 亿,我国成为全球主要经济体中首个实现“物超人”的国家。来源:工业和信息化部 图 8 我国移动通信基站发展情况 算力投资出现小幅波动,预计仍将重回稳定增长态势。IDC 数据显示,2022 年我国 IT 支出规模保持 2.3 万亿元,同比下降 0.2%。主要原因是受到疫情冲击,供给侧企业的研发和生产受到一定程度的影响,造成技术升级减速,供应链紧张,项目实施周期拉长,整体上影响了 IT 支出。但是,当前人工智能、云计算、大数据等新一代信息技术仍处在与经济社会各领域加速渗透融合的阶段,产业数字化转型进程持续推进,工业企业“智改数转”加速落地,算力投资的核心驱动力并未减弱。以大模型技术为代表的新兴技术更进一步抬高了人工智能研发与应用中对算力的需求,成为推动算力投资的新引擎,将进一步延续甚至增强 IT 投资增长趋势。中国算力发展指数白皮书(2023 年)21 来源:中国信息通信研究院、IDC 图 9 我国 IT 硬件、软件、服务支出规模 加快建设的数据资源体系为算力发展提供源源动力。数据是数字经济时代新生产资料,是人工智能技术发展的养分,是拉动算力发展与应用的助推剂。我国数据资源供给能力不断提升,根据数字中国发展报告(2022 年)数据,2022 年我国数据产量已增长至 8.1ZB,同比增长 22.7%,全球占比达 10.5%,位居世界第二。截至 2022 年底,我国数据存储量达 724.5 EB,同比增长 21.1%,全球占比达 14.4%。数据资源流通体系不断完善,全国一体化政务数据共享枢纽发布各类数据资源 1.5 万类,累计支撑共享调用超过 5000 亿次。我国已有 208个省级和城市的地方政府上线政府数据开放平台。截至 2022 年底,全国已成立 48 家数据交易机构,较 2021 年新增 6 家,北京、上海、深圳等地加速探索数据交易与开发利用模式。中国算力发展指数白皮书(2023 年)22(四)赋能作用深入发挥,数实融合发展潜力广阔(四)赋能作用深入发挥,数实融合发展潜力广阔 随着我国算力规模的持续扩大,互联网、大数据、人工智能等与实体经济深度融合,算力应用的新业态、新模式正加速涌现,一方面算力正加速向政务、工业、交通、医疗等各行业各领域渗透,成为传统产业智能化改造和数字化转型的重要支点。另一方面,围绕“大算力 大数据 大模型”,智能算力成为全球数字化转型升级的重要竞争力。算力带动行业数字化转型和智慧城市建设加速深化。从应用领域看,我国算力应用已加速从互联网、电子政务等传统领域,向服务、电信、金融、制造、教育等行业拓展。在通用算力领域,互联网行业仍是算力需求最大的行业,占通用算力 39%的份额;电信行业加强算力基础设施投入力度,算力份额首次超过政府行业,位列第二。政府、服务、金融、制造、教育、运输等行业分列三到八位。在智能算力领域,互联网行业对数据处理和模型训练的需求不断提升,是智能算力需求最大的行业,占智能算力 53%的份额;服务行业快速从传统模式向新兴智慧模式发展,算力份额占比位列第二;政府、电信、制造、教育、金融、运输等行业分列第三到八位。从支撑能力看,算力应用场景向工业制造、城市治理、智能零售、智能调度等领域延伸,激发了数据要素驱动的创新活力。“工业大脑”和“城市大脑”建设初具规模。“工业大脑”将工业企业的各种数据进行布局和融合,在上层构建工业数据中台,用智能的算法将数据的价值挖掘出来,实现数据采中国算力发展指数白皮书(2023 年)23 集监控、工业现场管控、设备智能控制等功能,快速提升工业制造水平。“城市大脑”通过对城市全域运行数据进行实时汇聚、监测、治理和分析,全面感知城市生命体征,辅助宏观决策指挥,预测预警重大事件,配置优化公共资源,保障城市安全有序运行,支撑政府、社会、经济数字化转型。以中文大模型为代表的办公生产力应用加速推进,2023 年 3 月百度发布文心一言,4 月华为发布盘古大模型,阿里发布通义千问大模型,商汤科技公布日日新大模型体系,5 月科大讯飞发布星火大模型,多家上市公司亦开始布局,助力 AI 大模型产业化。来源:中国信息通信研究院、IDC 图 10 我国各行业算力应用分布情况 算力助推信息消费与智能终端持续升级。一是移动数据流量消费规模继续扩大,用户数量快速增长。随着 5G 和物联网的规模建设及人工智能的应用普及,算力加速由云端向边侧、端侧的扩散,边端计算能力持续增长,推动高清内容、视频制播、AR 导航、云游戏、智能家居等新兴应用的推广,进而促进移动数据流量的规模扩大和用户中国算力发展指数白皮书(2023 年)24 数量增长。2022 年我国移动互联网流量实现快速增长,接入流量达2618 亿 GB,比上年增长 18.1%,移动互联网月户均流量(DOU)持续提升,全年 DOU 达 15.2 GB/户月,比上年增长 13.8%;11 月当月 DOU 达 16.58 GB/户,创历史新高。2022 年我国移动电话用户总数 16.83 亿户,全年净增 4062 万户,普及率为 119.2 部/百人,比上年末提高 2.9 部/百人。其中,5G 移动电话用户达到 5.61 亿户,占移动电话用户的 33.3%,比上年末提高 11.7 个百分点。蜂窝物联网用户规模持续扩大,三家基础电信企业发展蜂窝物联网用户 18.45 亿户,全年净增 4.47 亿户。二是智能终端算力提升成为新的增长需求。手机、电脑等终端生成并存储了海量数据,终端侧私有数据和推理计算是终端应用能力的重要方向,可直接运行在手机和电脑等智能终端上的私有化 AI 模型成为“大模型时代”的新需求,对终端的智能算力水平提出了更高的要求,推动终端产品计算方式的迭代升级。手机终端智能算力渗透率持续快速增长,华为、小米等手机厂商相继入局大模型,华为直接将大模型能力嵌入手机系统层面,HarmonyOS 4 系统将得到盘古大模型的加持;小米已经成功在手机本地跑通 13 亿参数 AI 大模型。中国算力发展指数白皮书(2023 年)25 来源:工业和信息化部 图 11 2017-2022 年移动互联网流量及月 DOU 增长情况(五)(五)算力算力拉动拉动经济增长经济增长,数字经济发展动能强劲,数字经济发展动能强劲 算力推动我国数字经济蓬勃发展。数字经济时代的关键资源是数据、算力和算法,其中数据是新生产资料,算力是新生产力,算法是新生产关系,构成数字经济时代最基本的生产基石。全方位促进我国产业数字化和数字产业化,打造面向未来的数字经济高地,亟需海量大数据、高性能算力、高效能算法以及算网融合的强劲支撑。数字产业化方面,我国进入核心技术突破的关键时期。据中国数字经济发展研究报告(2023 年)数据,2022 年,我国数字产业化增加值规模为 9.2 万亿元,同比名义增长 10.3%,占数字经济比重为 18.3%,占 GDP 比重为 7.6%。算力作为数字经济核心产业的重要底座支撑,对上游软硬件产业的拉动作用日渐凸显,2022 年全国电子信息制造业实现营业收入 15.4 万亿元,同比增长 5.5%。软件业收入跃上十万亿元台阶,达 10.81 万亿元,同比增长 11.2%,保持较中国算力发展指数白皮书(2023 年)26 快增长。产业数字化方面,产业数字化规模达到 41 万亿元,同比名义增长 10.3%,占数字经济比重为 81.7%,占 GDP 比重为 33.9%。依托算力总量的持续增长和算力类型的不断丰富,以制造业为代表的重点行业加快数字化转型步伐,对数字经济的增长起到了关键作用,我国已培育全国具有影响力的工业互联网平台超过 240 家,其中跨行业领域平台达到 28 个,加速数据互通、资源协同。来源:中国信息通信研究院 图 12 2016-2022 年全球和我国算力规模与 GDP、数字经济规模关系 算力发展为拉动我国 GDP 增长做出突出贡献。一方面,算力规模与经济发展水平呈现出显著的正相关关系,算力已成为数字经济时代的发动机。统计数据显示,2022 年,我国算力规模增长 50%,数字经济增长 10.3%,GDP 名义增长 5.3%。与全球相比,我国算力对 GDP增长的贡献突出,在 20162022 年期间,我国算力规模平均每年增中国算力发展指数白皮书(2023 年)27 长 46%,数字经济增长 14.2%,GDP 增长 8.4%;全球算力规模平均每年增长 36%,数字经济规模增长 8%,GDP 增长 4.7%。另一方面,算力带动产业结构、基础设施、技术创新、人才建设等各项拉动经济发展的因素共同迭代升级,促进数字技术与实体经济深度融合,形成新的经济增长点。“东数西算”工程初见成效,8 个国家算力枢纽节点建设方案均进入深化实施阶段,起步区新开工数据中心项目达到 60余个,算力集聚效应初步显现,全国一体化的算力网络体系正在逐步建立,将推动我国计算产业生态发展,形成数字经济新优势。三、中国算力发展指数评估 2022 年,我国加快算力规划落地实施,算力基础设施发展成效显著,布局不断优化、能力稳定提升、赋能价值逐步显现,为完成“十四五”规划工作目标打下坚实基础。我国继出台一系列与算力相关的“十四五”规划之后,在 2023 年发布的数字中国建设整体布局规划中再次强调系统优化算力基础设施布局,促进东西部算力高效互补和协同联动,引导通用数据中心、超算中心、智能计算中心、边缘数据中心等合理梯次布局,进一步明确了算力在我国数字经济建设过程中的核心地位。在需求与政策的双重驱动下,全国各地持续推进算力技术产业、基础设施建设及算力应用的发展。为全面梳理、客观评价我国算力发展状况,对我国算力拥有更为科学、具象的认识,结合算力发展特点和重点影响因素,我院基于中国算力发展指数,全面客观评价我国各中国算力发展指数白皮书(2023 年)28 省份及各城市算力发展水平,为全国、各省份及各城市算力发展政策制定提供有力支撑。基于算力发展研究体系,白皮书沿用中国算力发展指数 2.0 评价体系,从算力规模、算力产业、算力技术、算力环境和算力应用五个维度衡量我国的算力发展水平。中国算力发展指数 2.0 如图 13 所示。来源:中国信息通信研究院 图 13 中国算力发展指数 2.0(一)(一)指标建立指标建立依据依据 基于对全球和我国算力发展情况的分析,并综合 IDC11、罗兰贝格12、华为、浪潮等国内外机构和企业对算力测度及相关指标体系的研究,在充分征求专家意见的基础上,白皮书从算力规模、算力产业、算力技术、算力环境和算力应用五个维度选取相关指标建立中国算力 11IDC、浪潮和清华大学联合发布的2022-2023 全球计算力指数评估报告,主要围绕计算能力、计算效率、应用水平和基础设施支持四类指标进行评估。12罗兰贝格与华为联合发布的泛在算力:智能社会的基石给出了全球算力衡量指标体系,主要基于云、边、端对全球各国整体算力进行估算。中国算力发展指数白皮书(2023 年)29 发展指数 2.0,全面客观评价我国算力发展状况,分析各地现阶段的算力发展水平。算力规模主要基于计算设备算力和基础设施算力两个方面来衡量。算力产业主要基于计算设备、计算芯片、计算软件三个方面来衡量。算力技术主要基于算力创新水平和研发投入来衡量。算力环境主要基于网络环境、算力投入、数据开放来衡量。算力应用主要基于消费应用水平和行业应用水平来衡量。中国算力发展指数 2.0指标选择时遵循科学性、代表性、独立性的原则,结合算力发展特点和重点影响因素,并综合考虑到数据的可获取性和可比较性。(二)(二)指标指标体系建立体系建立 在评价工作开展过程中,按照科学的研究与分析方法,对各项指标进行权重确定、赋值和计算打分阶段,得到我国算力发展综合指数。综合指数的形成过程,可分为四个阶段:1.形成指数体系:根据上述建立指标体系的依据,征求专家的意见,对我国算力发展评价现状进行梳理,结合算力发展特点和重点影响因素,从算力规模、算力产业、算力技术、算力环境、算力应用五个维度搭建算力发展指数体系,指标涉及算力规模、算力产业等 5 个一级指标,计算设备算力、基础设施算力等 12 个二级指标,基础算力规模、智能算力规模等 16 个三级指标。表 1 中国算力发展指标体系 一级指标 二级指标 三级指标 单位 算力规模 计算设备算力 基础算力(服务器算力)规模 EFlops 中国算力发展指数白皮书(2023 年)30 一级指标 二级指标 三级指标 单位 智能算力(AI 服务器算力)规模 EFlops 超算算力(超级计算机算力)规模 EFlops 基础设施算力 数据中心、智能计算中心算力规模 EFlops 算力产业 计算设备 计算设备产量 万台 计算芯片 集成电路产量 万块 计算软件 软件业务收入 亿元 算力技术 创新水平 计算发明专利申请数 件 计算发明专利授权数 件 研发投入 计算机制造业 R&D 经费 亿元 算力环境 网络环境 互联网省际出口带宽 Tbps 5G 覆盖率%算力投入 IT 支出规模 亿元 数据开放 数据开放数林指数/算力应用 消费应用水平 移动互联网月均流量 EB 行业应用水平 产业数字化规模 亿元 来源:中国信息通信研究院 2.确定指标权重:针对形成评价体系的一级、二级、三级指标,通过基于专家打分法的层次分析法(AHP)方法,得到评价指标体系中每个一级、二级、三级指标之间的相对权重。3.根据区域实际情况对指标进行赋值:根据各省份、各城市算力发展实际情况13,得到每个指标的实际数值,并且对数据进行标准化处理,得到每个指标的赋值情况。13受数据可得性及数据连续性等限制,本报告测算不包括中国香港、中国澳门、中国台湾地区。中国算力发展指数白皮书(2023 年)31 4.计算综合指数:最后根据指标的具体赋值情况和相应的权重,最终形成各区域综合指数。(三)我国算力发展评估(三)我国算力发展评估 1.算力发展指数 京津冀、长三角、粤港澳大湾区、成渝双城经济圈等区域算力发展水平处于领先。整体来看,广东、北京、上海及周边省份算力发展指数总体较高,其中广东、北京、江苏、浙江、山东、上海排名前六,位于第一梯队,算力发展指数达到 40 以上,山东首次超越上海位列第五。四川、河北、河南、福建、湖南、湖北、贵州、安徽、广西排名七到十五位,算力发展指数达到 20 以上。北上广及周边省份依托雄厚经济基础、把握算力发展机遇,在先进计算关键技术创新、算力产业提振、算力基础设施建设、算力发展环境优化、算力创新应用推广等维度均取得突出成果,整体算力发展指数领先。北京、上海等地以政策为导向积极推动算力整体发展,先后出台了加快建设具有全球影响力的人工智能创新策源地实施方案(2023-2025)新型数据中心“算力浦江”行动计划(2022-2024 年)等政策,围绕人工智能算力发展和算力基础设施等领域加快算力发展布局。中西部核心省份算力发展日益崛起,发展环境有望进一步优化。中西部省份算力发展迅速,算力发展指数相较 2021 年平均增长率达35%,青海、云南、新疆、贵州算力指数增长率超过 45%。中西部省份绿色能源充足,西北部省份气候条件优越,随着国家“东数西算”中国算力发展指数白皮书(2023 年)32 工程的全面推进,贵州、内蒙古、甘肃、宁夏等核心省份算力发展优势突出,随着“东数西存”“东数西训”“东数西算”等链条并行发展,技术创新、算力应用、产业基础等制约算力发展的条件将不断得到改善。贵州加快建设面向全国的算力保障基地,开放“十二大应用场景”,打造大数据产业集群,着力培育算力发展核心竞争力。内蒙古加快绿色算力升级和算力应用赋能,建设一批绿色算力中心,提升云渲染、云游戏、云视频等算力服务能力,有效落实了国家“东数西算”战略。来源:中国信息通信研究院 图 14 2022 年中国部分省份算力发展指数 中国算力发展指数白皮书(2023 年)33 2.算力规模分指数 北上广及周边省份地区算力规模分指数较高,部分西部枢纽节点大幅提升。与 2021 年相比,北上广等热点地区算力规模指数仍然遥遥领先,其中北京、广东、上海位列前三,江苏、浙江、河北、山东、贵州跻身第一梯队,算力规模指数达到 20 以上。北上广通过集约化发展和新建大型/超大型算力中心,尤其是智能算力基础设施的建设,使得算力规模平均增速达到 44%,超过全国平均水平(36%),与第一梯队差距拉大。北京市积极开展智算中心建设,2023 年 2 月北京昇腾人工智能计算中心正式上线,首批签约的企业和科研单位已达47家,预计算力使用规模超过 248P。内蒙古、山西、湖北、河南、四川、福建、重庆、甘肃、江西、湖南、广西、宁夏位于第二梯队,算力规模指数位于前二十。山西、湖北、重庆、广西、新疆、安徽等地区排名上升,算力规模指数快速提升。山西积极布局算力基础设施,2022年山西阳泉智算中心上线,全部建成后算力将达到 4E,平均 PUE 为1.08,在数据存储规模、计算能力和环保节能三方面均处于业界领先水平。中国算力发展指数白皮书(2023 年)34 来源:中国信息通信研究院 图 15 2022 年中国部分省份算力规模分指数 各地算力规模发展稳步提升。从计算设备算力分布来看,北京、广东、浙江、上海、江苏在服务器市场和 AI 服务器市场中保持前五排名,市场份额总计分别达到 79%和 90%。超算算力方面,天津、山东、江苏、北京、浙江、陕西、四川、河南等省份位居前列。东部地区依然是算力需求最旺盛的区域,贡献了全国近 90%的计算设备算力。据统计14,目前中国在 14 个省市/地区均有团队在开展大模型研发,北京、广东两地最多,上海、浙江紧随其后,与算力基础设施发展水平成正相关,地域集中度相对较高。从基础设施算力分布来看,2022年我国基础设施算力规模排名前 10 的省份为上海、江苏、广东、河北、北京、山东、贵州、浙江、内蒙古和山西,基础设施算力算力规 14中国人工智能大模型地图研究报告 中国算力发展指数白皮书(2023 年)35 模均超过了 5 EFlops。特别是上海、江苏、广东、河北等省份,基础设施算力规模超过 16 EFlops。北上广及周边省份地区基础设施算力规模具有前期积累的明显优势,随着智算中心的快速部署,其基础设施算力进一步提升,进一步拉大和中西部地区的差距。来源:中国信息通信研究院 图 16 2022 年中国部分省份基础设施算力规模 3.算力产业分指数 我国算力产业形成一核双中心多点的发展格局,产业牵引带动作用较为明显。整体来看,以广东为代表的粤港澳大湾区算力产业发展水平一骑绝尘,算力产业分指数首次突破 100 大关;以江苏、北京为代表的长三角、京津冀区域算力产业发展水平全国领先,算力产业分指数均超过 40,成为区域增长中心;山东、浙江、福建、上海、四川位居四到八名,算力产业分指数均超过 10,形成多点支撑的算力产业中国算力发展指数白皮书(2023 年)36 发展格局。计算设备方面,广东、福建、江苏、山东、天津等省份在服务器等计算设备产量(不考虑微型计算机设备)方面处于领先,排名前五名,其中广东处于绝对领先优势,2022 年计算设备产量超过1100 万台,占全国总产量的 60%,比 2021 年增长 10 个百分点,以深圳、东莞、惠州为中心的珠江东岸电子信息产业带引领区域计算产业强劲发展。湖北省设备产量位居全国第 9,在湖北省加快发展算力与大数据产业三年行动方案(2023-2025 年)中提出大力发展高可靠、高性能、高扩展、高效节能的数据中心服务器及智能计算产品。在计算芯片方面,江苏、甘肃、广东、上海、北京、浙江等省份在计算芯片产量方面位于前列,其中江苏集成电路芯片产量连续两年突破1000 亿块,占全国总量 30%,与上海、浙江、安徽等周边省份形成协同发展机制。上海市高度重视计算芯片产业发展,尤其在人工智能芯片产业领域聚集程度高,GPU、FPGA、ASIC 等计算芯片新成果不断涌现。计算软件方面,北京、广东、江苏、山东、浙江在软件业务收入方面位于前列,其中北京在2022年软件业务收入达到23912亿元,首次突破两万亿元大关,位居榜首,带动全国计算产业发展。北京市出台北京市推动软件和信息服务业高质量发展的若干政策措施,提出制定基础软件应用指导目录,支持软件产品首试首用,推进国产软件产业发展。深圳市出台 深圳市推动开源鸿蒙欧拉产业创新发展行动计划,举全市之力推动开源鸿蒙欧拉产业创新发展。中国算力发展指数白皮书(2023 年)37 来源:中国信息通信研究院 图 17 2022 年中国部分省份算力产业分指数 4.算力技术分指数 东部省份算力技术分指数较高,算力创新水平和研发投入处于领先。整体来看,广东在算力技术分指数处于领先地位,算力创新水平和研发投入均处于全国第一,北京、江苏、浙江、上海、山东、福建等东部省份以及湖北、四川、安徽位列前十,东部省份算力技术水平处于领先地位。算力创新水平方面,广东、北京、上海位居前三,在计算发明专利申请数和发明授权数方面处于领先,全国占比累计近70%,其中广东省近五年计算发明专利申请数和发明授权数分别达到6 万和 1.7 万个,占比超过 43%。浙江、江苏、山东、湖南、湖北、安徽、河南跻身前十。算力研发投入方面,广东、江苏、浙江、上海、四川、湖北、福建、安徽、山东、湖南位居前十,在计算机制造业 R&D中国算力发展指数白皮书(2023 年)38 经费方面处于领先,其中广东在计算机、通信和其他电子设备制造业R&D 经费方面接近 1400 亿元,遥遥领先于其他省份。来源:中国信息通信研究院 图 18 2022 年中国部分省份算力技术分指数 5.算力环境分指数 京津冀、长三角、粤港澳大湾区、成渝双城经济圈四大城市群算力环境指数较高。整体来看,各省份算力发展环境持续优化,算力网络环境不断完善,算力投入力度持续加大,数据开放程度不断提升,其中广东、北京、上海、浙江、江苏、山东排名前六,算力环境指数达到 70 以上,四川、河南、天津、河北跻身前十。算力网络环境方面,广东、上海、江苏、浙江、北京、山东排名前六名,相关指数达到 90 以上,其中广东、江苏和浙江在互联网省际出口带宽国内领先,上海、北京、天津、山东和广东在 5G 覆盖率方面居全国前列,达到中国算力发展指数白皮书(2023 年)39 45%以上。算力投入力度方面,北京、广东、上海、江苏、浙江排名前五,相关指数达到 60 以上,其中北京和广东 IT 硬件、软件和服务支出规模均超过 2700 亿元,算力投入力度领先于其他省份。数据开放程度方面,结合中国开放数林指数数据,数据开放指数分值较高的地方主要集中在东南部沿海地区,山东、浙江、上海、贵州、四川、北京排名前六名,相关指数达到 45 以上,其中浙江在准备度、数据层排名第一,贵州在平台层排名第一,山东在利用层排名第一。位于西部的贵州省、四川省在数据开放方面持续给出优秀表现 来源:中国信息通信研究院 图 19 2022 年中国部分省份算力环境分指数 6.算力应用分指数 我国东部沿海省份算力应用指数普遍较高,算力对产业数字化的带动作用进一步凸显。整体来看,广东、江苏、山东、浙江连续两年中国算力发展指数白皮书(2023 年)40 排名前四。四川、河南、湖北、福建、湖南、河北位列五到十名,算力应用指数均接近或超过 50。消费应用水平方面,广东、江苏、山东、浙江、河南排名前五,在移动数据流量消费规模方面国内领先,移动互联网月均流量超过 1.5 EB,消费应用水平指数超过 80。广东联通已正式启用智算中心并宣布算卡用户突破 5000 户。行业应用水平方面,算力为各省份产业数字化持续健康发展输出强劲动力,对行业数字化转型的拉动作用较为明显,广东、江苏、山东、浙江、福建、上海排名前六,行业应用水平指数超过 60,其中广东省产业数字化发展处于领先,产业数字化规模达到 4.4 万亿元,江苏、山东、浙江、福建、上海、湖北等地区产业数字化规模超过 2 万亿元。浙江省加快推进算力在智能制造领域的赋能作用,位于湖州的吉利星睿智算中心智能仿真平台,可实现 12000 次/辆的虚拟安全碰撞试验,使得更快速地获取仿真数据,加速新车研发。中国算力发展指数白皮书(2023 年)41 来源:中国信息通信研究院 图 20 2022 年中国部分省份算力应用分指数(四)(四)算力发展指数与经济的关系算力发展指数与经济的关系 各省份算力发展指数与其经济规模呈现出显著的正相关。算力对各省份经济发展具有强力推动作用,2022 年数字经济规模和地区生产总值较高的省份,算力发展水平也较高。算力发展指数每提高 1 点,数字经济增长约 570 亿元(约占全国数字经济规模的 1.14),地区生产总值增长约 1285 亿元(约占全国 GDP 的 1.06)。整体来看,2022 年算力对数字经济和地区生产总值增长的带动作用相较 2021 年出现下滑,主要有四大因素,一是本身随着算力的增长,边际效用会凸显,本身带动作用就会下降;二是算力增长对经济的带动作用有滞后性,从算力建成到发挥最大作用有 1-3 年的缓冲期;三是算力对经济的增长需要新需求新应用来拉动,细分领域应用升级的拉动作用不中国算力发展指数白皮书(2023 年)42 如大类领域全面升级的作用显著,例如自动驾驶的下沉带来的经济提升不如人工智能自身的带动作用大;四是 2022 年我国面临的疫情多地高发和封控的严峻形势,严重阻碍了国民经济的增长。来源:中国信息通信研究院 图 21 算力发展指数与 GDP 关系 各省份按照算力发展主要分为供给驱动型、需求拉动型、协同发展型三类。一是以北京、上海、广东等省份为代表的供给驱动型,本地算力规模和算力产业规模较大,且算力环境较好,并为其他省份消费及行业应用提供算力支撑。这些地区正在进一步绿色集约化发展先进算力,并加快核心骨干网络建设,充分发挥算力枢纽作用,为周边地区乃至全国提供更加快速便捷的算力资源。二是以江苏、山东、河中国算力发展指数白皮书(2023 年)43 南、四川、湖北、福建、湖南等省份为代表的需求拉动型,本地算力需求旺盛,算力消费应用水平和行业应用水平较高。这些地区因地制宜,根据地方实际算力需求,做好科学规划,以更具前瞻性的方式进一步推进智算中心、超算等算力基础设施的建设。三是以河北、浙江、重庆等为代表的协同发展型,数字经济与算力协同发展,并逐渐形成了京津冀、长三角、粤港澳大湾区、成渝双城经济圈等区域协同发展的布局。这些地区一方面继续吸纳算力中心城市的算力溢出,壮大自身算力规模;另一方面持续挖掘区域内算力应用需求,充分发挥算力对社会经济发展的赋能作用。(五)我国算力二十强市(五)我国算力二十强市 依据中国算力发展指数 2.0 的评估方法,结合我国各城市的算力基础设施规模、技术发展水平、产业应用发展水平等指标计算各城市算力发展指数,以此来衡量各地算力发展水平,并以此给出我国算力二十强市榜单。北京、上海算力发展水平领先优势明显。北京、上海本身作为直辖市以及自身算力发展领先优势,位列榜单前两名,算力发展优势遥遥领先。广州、深圳、廊坊、苏州、重庆、杭州、天津、南京位列三至十名,其中既有东部地区核心城市,也有京津冀地区承接北京算力外溢的后发城市,也有中西部地区算力集聚城市。算力规模方面,算力 Top20 总算力占全国的 74%,头部城市集聚优势凸显。广东、江苏入围城市数量最多。在算力二十强市榜单,广东、江中国算力发展指数白皮书(2023 年)44 苏入围城市数量最多,分别有 3 个,河北、山东各有 2 个城市入围。在算力前五十强城市中,江苏、广东、河北入围城市数量最多,分别为 7 个、5 个和 5 个。江苏、广东、河北分别代表长三角、粤港澳大湾区和京津冀三大区域的算力发展水平,其算力基础设施水平、技术产业实力和算力应用规模具有明显优势。中西部地区的重庆、成都、武汉、郑州、呼和浩特进入前二十,随着中西部地区算力基础设施的快速部署和北京、上海等中心城市算力外溢,中西部地区城市算力发展水平还将进一步提升。表 2 中国算力二十强市 排名排名 城市城市 所在省份所在省份 排名排名 城市城市 所在省份所在省份 1 北京 北京市 11 成都 四川省 2 上海 上海市 12 武汉 湖北省 3 广州 广东省 13 张家口 河北省 4 深圳 广东省 14 郑州 河南省 5 廊坊 河北省 15 呼和浩特 内蒙古自治区 6 苏州 江苏省 16 济南 山东省 7 重庆 重庆市 17 福州 福建省 8 杭州 浙江省 18 无锡 江苏省 9 天津 天津市 19 东莞 广东省 10 南京 江苏省 20 青岛 山东省 来源:中国信息通信研究院 中国算力发展指数白皮书(2023 年)45 四、基建创新双线并举,全面赋能数字经济高质量发展 当前,国家及各地“十四五”算力发展规划已完成系统部署,纵横联动持续推进以算力为生产力的数字经济高质量发展。下一步,要全面贯彻落实党中央、国务院决策部署,立足制造强国、网络强国和数字中国建设,牢牢把握经济社会数字化、智能化发展浪潮,不断壮大算力规模,提升产业供给能力,激发创新活力和应用潜力,完善产业生态,持续优化发展环境,坚持对外开放合作,着力构建我国算力发展新格局,为数字经济蓬勃发展提供有力支撑。(一)赋能区域发展,科学布局基础设施(一)赋能区域发展,科学布局基础设施 以带动区域数字化转型、促进产业智能升级、赋能区域社会经济发展为出发点,适当超前布局,科学有序、绿色集约地推进数据中心、智能计算中心、超级计算中心等算力设施建设,加强评估评测提升算力设施选型的先进性、科学性、精准性,打造一批示范性、引领性强的新型算力设施。统筹布局绿色算力基础设施建设,有序推动传统算力基础设施绿色化升级。提升新型算力网络支撑能力,优化区域算力互联能力,促进跨网、跨地区、跨企业数据交互。(二)突破核心技术,强化算力保障能力(二)突破核心技术,强化算力保障能力 持续发挥我国大市场深度广度和新型举国体制优势,打造以算力为核心的软硬件协同创新生态体系,加快推进科技自立自强,以系统化创新思维提升计算产品先进性。积极把握创新引领趋势,推动人工中国算力发展指数白皮书(2023 年)46 智能计算、高性能计算等技术突破,加快算法模型、高端芯片、计算系统、软件工具等领域关键技术攻关和重要产品研发,夯实产业发展基础。持续推进基础研究和多路径探索,深入开展计算理论、计算架构、计算方式等创新,推进存算一体、量子计算、类脑计算、光计算等前沿颠覆式计算体系化布局,推动非经典计算从理论走向实践,构建后摩尔时代算力新优势。(三)加快企业培育,持续完善产业生态(三)加快企业培育,持续完善产业生态 面向多元化应用场景的技术融合和产品创新,提升产业链关键环节竞争力,推动算力产业发展迈向全球价值链中高端。培育一批计算产业链优质企业,构建“创新型中小企业-省专精特新企业-省专精特新冠军企业-国家级小巨人企业-国家级单项冠军”梯度培育体系。促进各地区计算产业集聚化发展,以先进计算为主线提升园区质量和水平,形成区域布局合理、辐射带动效能大的算力产业体系。(四)加强政策保障,优化算力发展环境(四)加强政策保障,优化算力发展环境 深化各类算力产业政策贯彻实施,加强产、学、研、用、政、金多维度协同机制,优化算力创新资源配置,鼓励计算企业持续提升自主创新力。引导社会资本、金融机构参与算力基础设施建设和算力技术产业发展,支持符合条件的企业上市融资。发挥数据关键生产要素作用,建立健全数据资源管理应用体系,深化公共数据资源开发利用,推进数据资源市场化,促进数据要素高效流通,培育壮大数据要素市中国算力发展指数白皮书(2023 年)47 场。强化计算领域高端人才的培养,坚持“高精尖缺”导向,以优质企业、高水平产业集聚区和产业创新平台为载体,全方位培养引进创新型人才和复合型人才。建设并完善算力标准和测评体系,加强知识产权布局,增强核心竞争力。(五)激活应用潜力,赋能行业转型升级(五)激活应用潜力,赋能行业转型升级 积极把握通用大模型、垂直行业大模型等新型算力应用场景发展契机,依托国内大市场环境加快行业需求释放,不断开拓算力在城市大脑、工业大脑、信息消费、自动驾驶、自动化办公等场景的应用边界。充分发挥算力对科学研究、金融、教育、医疗等领域的赋能作用,强化龙头带动和产用协同,鼓励加强先进计算系统解决方案和行业应用创新,推动异构计算、智能计算、边缘计算等技术在垂直领域的拓展应用,打造一批先进计算产品及行业应用优秀案例,推进面向重点领域的试点示范和规模落地,促进实体经济高质量发展。(六)坚持国际合作,维护产业安全稳定(六)坚持国际合作,维护产业安全稳定 深刻把握构建人类命运共同体理念,坚定不移推进高水平对外开放,与世界各国实现互利共赢,共同维护全球产业链供应链稳定畅通。进一步优化营商环境,促进公平竞争,落实外资企业国民待遇,鼓励和引导外商加大在算力产业链各环节的投资。坚持共商共建共享原则,通过相关国际组织和多边平台分享算力设施建设和应用成果,推进算力成果惠及更多国家和人民。持续深化拓展国际的交流与合作,以高中国算力发展指数白皮书(2023 年)48 校、科研院所、科技领军企业为主体,通过学术会议、国际论坛、学术社区、项目合作等多种方式,积极推进算力领域的国际交流合作,为算力领域新发展营造良好的国际环境。中国算力发展指数白皮书(2023 年)49 附件一:算力指数测算框架 基于中国算力发展指数 2.0,算力指数包括算力规模、算力产业、算力技术、算力环境和算力应用五个维度。维度一:算力规模。主要基于计算设备算力和基础设施算力两个方面来衡量。计算设备算力主要是根据各地区近六年的算力设备市场分布,分别从通用服务器、AI 服务器、超级计算机三大类产品来衡量基础算力、智能算力、超算算力规模,其中基础算力主要聚焦各地区服务器算力规模,采用单精度浮点数(FP32)计算能力来衡量算力性能15;智能算力主要聚焦各地区 AI 服务器算力规模,采用主流的半精度浮点算力数(FP16)计算能力来衡量算力性能;超算算力主要是基于国际知名排行榜 TOP500、中国高性能计算机性能 TOP100,并参考超算生产商的相关数据,采用双精度浮点数(FP64)计算能力来衡量超算的算力性能。基础设施算力主要是基于中国信息通信研究院关于数据中心、智能计算中心算力统计数据。算力规模测算时统一折算为单精度浮点数(FP32)算力进行统计。维度二:算力产业。主要基于计算设备、计算芯片、计算软件三个方面来衡量算力产业。算力产业涵盖设备、芯片、软件等产业链关键环节,算力产业是算力发展的基础底座。计算设备主要聚焦服务器等计算机整机产量,以此反映各地区计算机制造能力,是承载算力的 15用单精度浮点数(FP32)计算能力评估服务器的通用计算能力,服务器算力=处理器芯片数*每时钟周期执行单精度浮点运算次数*处理器主频*处理器核数。中国算力发展指数白皮书(2023 年)50 实际主体。计算芯片主要聚焦微处理器、存储器等集成电路产量,以此反映各地区芯片生产供给能力,是产生算力的基础与核心。计算软件主要聚焦软件业务收入,主要反映各地区软件和信息技术服务业发展水平,是算力赋能千行百业的纽带。维度三:算力技术。主要基于算力创新水平和研发投入来衡量算力技术水平。算力技术创新是算力发展的动力源泉,企业持续加快研发投入和专利布局。各地区计算发明专利申请数和计算发明专利授权数能够体现各地区计算研发成果的市场价值和竞争力,作为衡量算力创新水平的主要指标。各地区计算机制造业 R&D 经费集中反映了各地区算力领域科技投入的规模和水平,作为衡量算力研发投入的主要指标。维度四:算力环境。主要基于网络环境、算力投入、数据开放三大指标来衡量算力环境。稳步发展的网络环境为算力发展提供坚实支撑,IT 大规模投资和数据开放流通将对算力增长产生直接和间接的推动作用。网络环境重点聚焦互联网省际出口带宽和 5G 移动基站覆盖情况,主要反映各地区之间(省际)在数据和互联网等业务上的数据传输服务能力,以及地区内的边缘计算支撑能力。算力投入力度重点聚焦计算硬件、软件、服务等投入情况,大模型训练、自动驾驶、城市大脑等新兴应用驱动算力的发展,带动计算硬件、软件、服务支出的增长。数据开放采用数据开放数林指数16,从准备度、平台层、16参考复旦大学数字与移动治理实验室“2022 年度中国开放数林指数”和中国地方政府数据开放报中国算力发展指数白皮书(2023 年)51 数据层、利用层等维度对各地区的数据开放水平进行综合评价,主要反映各地“开放数木”的繁茂程度和果实价值,助推我国政府数据开放生态体系的建设与发展。维度五:算力应用。主要基于居民消费应用水平和行业应用水平来衡量算力应用整体水平。算力推动消费和行业应用的发展,而消费和行业应用则拉动算力的增长。消费应用水平主要聚焦移动互联网月均流量,移动互联网接入流量与算力规模具有显著相关性,算力是海量移动互联网数据的承载实体,数据流量增长是算力规模快速增长的核心驱动因素,智能手机、远程办公、在线会议、移动支付、移动游戏等移动互联网应用拉动了后端算力基础设施的建设,极大促进了算力的快速增长。行业应用水平主要聚焦产业数字化,反映了算力在互联网、制造、金融等领域的应用情况,工业互联网、智能制造、智慧金融等与信息技术深度融合的新模式新业态为算力发挥推进作用提供广阔空间。(一)算力规模分指数测算方法(一)算力规模分指数测算方法 算力规模分指数由计算设备算力和基础设施算力的二级指标数值加权计算得出。计算设备算力和基础设施算力分别进行标准化处理,得到每个指标的赋值情况。1.计算设备算力。反映各地区基于通用服务器所提供的基础算力、基于 AI 服务器提供智能算力、基于超级计算机所提供的超算算 告。中国算力发展指数白皮书(2023 年)52 力。主要采用基础算力规模、智能算力规模、超算算力规模等三级指标来衡量,通过标准化处理和数值加权计算得出。(1)基础算力。反映各地区基于 CPU 芯片的服务器所提供的计算能力,主要采用服务器算力规模指标来衡量。服务器算力规模=近六年(年服务器出货规模*当年服务器平均算力)(2)智能算力。反映各地区基于 GPU、FPGA、ASIC 等加速芯片的 AI 服务器提供人工智能训练和推理的计算能力,主要采用 AI 服务器算力规模指标来衡量。AI 服务器算力规模=近六年(年 AI 服务器出货规模*当年 AI 服务器平均算力)(3)超算算力。反映各地区基于超级计算机等高性能计算集群所提供的计算能力,主要采用超算算力规模指标来衡量。超算算力规模=超级计算机算力 2.基础设施算力。反映各地区数据中心、智能计算中心算力规模。基础设施算力规模=数据中心算力 智能计算中心算力(二)(二)算力算力产业产业分指数测算方法分指数测算方法 算力产业分指数由计算设备、计算芯片、计算软件等二级指标数值加权计算得出。计算设备、计算芯片、计算软件分别进行标准化处理,得到每个指标的赋值情况。1.计算设备。反映各地区在服务器、AI 服务器、超级计算机等计算设备的生产制造能力,主要采用计算设备产量指标来衡量。中国算力发展指数白皮书(2023 年)53 计算设备产量=服务器、AI 服务器、超级计算机等计算设备产量之和 2.计算芯片。反映各地区在微处理器、存储器等集成电路的生产制造能力,主要采用集成电路产量指标来衡量。集成电路产量=微处理器、存储器等集成电路产量之和 3.计算软件。反映各地区在软件和信息技术服务业的发展水平,主要采用软件业务收入指标来衡量。软件业务收入=软件产品、信息系统集成服务、信息技术咨询服务、数据处理和运营服务、嵌入式系统软件、IC 设计业务收入之和(三)(三)算力算力技术技术分指数测算方法分指数测算方法 算力技术分指数由创新水平、研发投入等二级指标数值加权计算得出。创新水平、研发投入分别进行标准化处理,得到每个指标的赋值情况。1.创新水平。算力创新水平反映各地区在计算研发成果方面的市场价值和竞争力,主要采用各地区计算发明专利申请数和计算发明专利授权数来衡量,通过标准化处理和数值加权计算得出。2.研发投入。反映了各地区算力领域科技投入的规模和水平,主要采用各地区计算机制造业 R&D 经费来衡量。研发投入=各地区计算机制造业规模以上工业企业 R&D 经费之和(四)(四)算力环境分指数测算方法算力环境分指数测算方法 算力环境分指数由网络环境、算力投入、数据开放等二级指标数中国算力发展指数白皮书(2023 年)54 值加权计算得出。其中,网络环境、算力投入分别进行标准化处理,得到每个指标的赋值情况。1.网络环境。反映各地区在数据和互联网等业务上与国内其他地区数据传输服务能力以及本地区的边缘计算支撑能力,主要采用互联网省际出口带宽、5G 覆盖率等三级指标来衡量,通过标准化处理和数值加权计算得出。互联网省际出口带宽=各运营商城域网出口带宽之和 5G 覆盖率=5G 基站数量/4G 基站数量 2.算力投入。反映各地区在算力领域投入情况,主要采用 IT 支出规模指标来衡量。IT 支出规模=各地区 IT 硬件、软件、服务投入之和 3.数据开放。反映各地区政府的数据开放水平,主要采用数据开放数林指数,从准备度、平台层、数据层、利用层等维度对各地区的数据开放水平进行综合评价。(五)(五)算力应用分指数测算方法算力应用分指数测算方法 算力应用分指数由消费应用水平、行业应用水平等二级指标数值加权计算得出。消费应用水平、行业应用水平分别进行标准化处理,得到每个指标的赋值情况。1.消费应用水平。反映各地区算力在移动互联网等消费领域的应用水平,主要采用移动互联网月均流量指标来衡量。移动互联网月均流量=各地区移动电话用户数*移动互联网月户中国算力发展指数白皮书(2023 年)55 均流量 2.行业应用水平。反映各地区算力在农业、工业、服务业等传统行业领域的应用水平,主要采用产业数字化规模指标来衡量。产业数字化规模=各地区 ICT 产品和服务在其他领域融合渗透带来的产出增加和效率提升(增加值)中国算力发展指数白皮书(2023 年)56 附件二:数据来源 1.基础数据,包括人口数据、经济增加值、行业增加值、国家投入产出表、计算设备产量、集成电路产量、软件业务收入、R&D 研发等数据来源于国家统计局、各省份统计部门相关数据。2.我国及各省份 5G 基站数、移动电话用户数、移动互联网月户均流量、互联网省际出口带宽来自工信部统计数据。3.全球及我国服务器、AI 服务器、芯片出货量来自 IDC、Gartner、Counterpoint、WSTS 统计数据,用于计算和评估全球及我国基础算力、智能算力规模。4.全球及我国超算算力规模数据来自国际知名排行榜 TOP500、中国高性能计算机性能 TOP100 以及相关厂商提供的数据。5.我国各省份算力硬件、软件和服务支出来自国家统计局、工信部、IDC 相关统计数据,用于评估我国各省份算力投入。6.我国各省份数据开放指数数据来自复旦大学数字与移动治理实验室“2022 年度中国开放数林指数”和中国地方政府数据开放报告。7.我国及各省份计算发明专利申请数和发明授权数数据来自innojoy 专利数据库。中国信息通信研究院 地址:北京市海淀区花园北路 52 号 邮编:100191 电话:010-62302739 传真:010-62304980 网址:
证券研究报告,宏观深度报告,中国宏观126请务必阅读正文之后的免责条款部分宏观深度报告报告日期,2023年09月15日第四次科技革命与前两次哪个更像,第四次科技革命与前两次哪个更像,人工智能如何影响宏.
云计算行业及其人才与人力资源服务需求分析2022,2023十大行业洞察核心观点从整体行业来看,我国云计算行业呈现良好增长趋势近年来我国云计算市场规模增速高于世界水平,据中国信息通信研究院数据表明,20.
中国人工智能产业技术成熟度白皮书,中国人工智能产业发展联盟,年月前言自年国务院印发实施新一代人工智能发展规划以来,人工智能产业被上升为国家战略的高度,人工智能技术的基础研究,产业转化和传统行业应用都取.
20232023 Report of the WorldsMost Influential AI ScholarsI引言2023 年 4 月,清华大学 AMiner 团队联合清华-中国工程院知识智能联合研究中心、智谱AI,共同发布2023 年全球最具影响力人工智能学者(以下简称“AI 2000 学者”榜单)。AI2000 榜单基于 AMiner 科技情报大数据挖掘与服务系统平台(简称 AMiner)1的海量学术数据生成,通过分析经典人工智能(AAAI/IJCAI)、机器学习、计算机视觉、自然语言处理、机器人、知识工程、语音识别、数据挖掘、信息检索与推荐、数据库、人机交互、计算机图形、多媒体、可视化、安全与隐私、计算机网络、操作系统、计算理论、芯片技术和物联网等 20 个人工智能子领域的顶刊/顶会论文作者信息,按学者学术影响力2得分从高到低排序,遴选排名靠前的 100 位学者,共计 2,000 人次。基于 AI2000 榜单,我们编制了本2023 年全球最具影响力人工智能学者分析报告,旨在帮助全球 AI 领域学者追踪学科研究前沿,助推我国人才强国战略的实施,以及方便产业界识别领域最新发展方向。1 AMiner 数据库拥有大约 1.33 亿学者信息、2.72 亿多篇论文、880 万知识概念和 7.54 亿次引用关系,可提供准确的学者和研究机构、趋势分析、知识图谱、溯源分析树、学者轨迹、人才追踪和研究机构等信息。2 基于 AMiner 平台检索 2013 年-2022 年,经典 AI(AAAI/IJCAI)、机器学习等 20 个子领域相应会议/期刊作者中影响力指数排名靠前的 100 位论文作者,共计 2000 人次作为顶尖人才,具体计算方法如下:第一步,计算每篇论文中每位学者的影响力权重系数。当 n=1 时,p=100%;当 n1 时,p=1m=1n11m? 12,k n 时=k,k=n 时=2上式中,n 表示某篇论文的作者数量;p 表示作者在该篇论文中的引用权重系数;k 表示作者在该篇论文中的作者排序。第二步,计算每位学者的影响力指数。A=i=1npnCn?上式中,A 表示某位作者的影响力指数;n 表示该作者在相应会议/期刊中的发表论文数量;p 表示作者在某篇论文中的引用权重系数;C 表示该篇论文的被引用量。论中引用数据来源于 Google Scholar,其引用数据截止时间为 2023 年 3 月 31 日。目录一 AI2000 学者地理分布.1(一)美国学者 1,079 人次,全球占比过半;中国学者 280 人次,全球占比 14%.1(二)加州、华盛顿州和北京是 AI2000 学者最为集中的三个地区.1(三)华人学者在 AI 领域的影响力不容忽视,全球占比近 3 成,多数在中国本土和美国两地发展.2(四)全球 45 岁以下青年学者占比 51.8%,海外华人青年学者占比 61.7%,海外华人青年学者是值得关注和引进的重要对象.3(五)在我国,北京 AI 2000 学者数量远超其他省市,共计 121 人次,全国占比达 43.2%.3二 AI2000 机构分布.4(一)谷歌拥有全球近 10%的顶尖学者;我国清华大学、浙江大学和中国科学院跻身TOP 20 机构榜单.4(二)全球人工智能头部机构以高校为主,高校入选数量呈上升趋势.5(三)清华大学再度成为我国入选学者最多的机构,入选人次和全球排名相较于去年均有所上升.5(四)AI 新势力进一步崛起,近五年新成立的机构有 62 家,其中 33 家来自美国.6三 AI2000 学者领域分布.7(一)美国在绝大多数子领域的学者数量最多,中国在 AAAI/IJCAI 和多媒体两个子领域的学者人数最多.7(二)我国在计算机理论和人机交互两个子领域无学者入榜.81AI2000 学者地理分布2023 年,AI 2000 人工智能全球最具影响力学者(以下简称 AI2000 学者)共计 2,000 人次,遍及全球 36 个国家;其中,中国学者 280 人次(总占比 14.0%);华人学者 598 人次(总占比 29.9%);45 岁以下的青年学者 1,036 人次(总占比 51.8%)。地理分布情况如下:(一)美国学者 1,079 人次,全球占比过半;中国学者 280 人次,全球占比 14%从 2023 年 AI 2000 学者的国别分布看,美国入选人数最多,共有 1,079 人次,占全球总数的 54.0%;其次是中国,共有 280 人次入选,美国学者数量是排名第二的中国的近 4 倍;第三是德国,共有 120 人次,全球占比为 6.0%;第四是英国,共有 114 人次,全球占比为 5.7%。其他前十强国家依次是加拿大、瑞士、新加坡、澳大利亚、法国和意大利,这些国家的入选学者数量均在百人以下。数据来源:AMiner。单位:人次图 1 AI 2000 学者数量 TOP 10 国家(二)加州、华盛顿州和北京是 AI2000 学者最为集中的三个地区根据数据显示,目前 AI2000 学者最为集中区域是美国的加州(California),共计 433 人次(占比 21.7%)。加州是全球高科技事业之星硅谷(Silicon Valley)的所在地,融科学、技术、生产为一体,该地区附近不仅拥有斯坦福大学(Stanford University)和加州大学伯克利分校(UC Berkeley)等国际顶尖大学;同时还拥有着谷歌、Meta、苹果、英伟达一2等高新技术公司。AI2000 学者数量次之的地区是华盛顿州,共计 148 人次(占比 7.4%);北京学者有 121 人次,AI2000 学者占比 6.1%。数据来源:AMiner。图 2 AI 2000 学者数量 TOP 10 省(州)(三)华人学者在 AI 领域的影响力不容忽视,全球占比近 3 成,多数在中国本土和美国两地发展2023 年,AI 2000 华人学者共计 598 人次,全球总占比为 29.9%。其中,国内华人学者数量最多,为 277 人次;其次是美国华人学者,数量为 247 人次,占美国学者总数的 22.9%;新加坡华人学者数量为 22 人次,占新加坡学者总数的 57.9%。此外,澳大利亚(19 人次)、加拿大(15 人次)、英国(12 人次)等国也有一定数量的华人学者分布。数据来源:AMiner。图 3 AI 2000 全球华人学者分布3(四)全球 45 岁以下青年学者占比 51.8%,海外华人青年学者占比 61.7%,海外华人青年学者是值得关注和引进的重要对象从年龄分布来看,入选学者中 45 岁以下的青年学者占比 51.8%;我国青年学者占比 54.3%,高于全球整体水平,说明我国青年后备力量充足。此外,海外华人学者中,青年学者占比61.7%,海外华人青年学者是值得关注和引进的重要对象。数据来源:AMiner。图 4 AI 2000 华人青年学者占比分布(五)北京 AI 2000 学者数量远超国内其他省市,共计 121 人次,全国占比达 43.2%数 据 显 示,中 国 共 有 AI2000 学者 280 人次,超过60%的 AI 2000 学者聚在北京、香港和浙江地区,其中北京学者数量为 121 人次(占比 43.2%),远超其他省市。其他排名前十的省市地区依次是上海(23 人次,占比 8.2%)、安徽(17 人次,占比 6.1%)、广东(17人次,占比 6.1%)、江苏(9人次,占比 3.2%)、台湾(8人次,占比 2.9%)、陕西(6人次,占比 2.1%)、四川(5人次,占比 1.8%)和黑龙江(5 人次,占比 1.8%)。数据来源:AMiner。图 5 中国 AI 2000 学者地区分布4AI2000 机构分布2023 年,AI2000 学者来自全球的 533 家机构,其中,高校机构数量最多为 301 家,占比56.5%;企业机构数量为 191 家,占比 35.8%;科研机构数量为 41 家,占比 7.7%。谷歌以 199 位学者数量,再次成为全球入选学者数量最多的机构。(一)谷歌拥有全球近 10%的顶尖学者;我国清华大学、浙江大学和中国科学院跻身TOP 20 机构榜单2023 年,谷歌以 194 人次的学者数量连续四年位居全球 AI2000 机构榜单首位。AI 2000全球 TOP 20 机构中,美国机构 13 家,中国机构 3 家,英国、加拿大、瑞士和新加坡各有1 家机构入榜。上榜的 3 家中国机构为清华大学、浙江大学和中国科学院,清华大学以 34人次的数量名列第八,浙江大学以 18 人次的数量名列第十四,中国科学院以 16 人次的数量并列十六。表 1 AI 2000 全球 TOP 20 机构二5单位:人次数据来源:AMiner。(二)全球人工智能头部机构以高校为主,高校入选数量呈上升趋势从 AI 2000 全球 TOP 20 机构的性质变化趋势看,2023 年,高校和科研机构数量比去年均有增加,新增机构分别是康奈尔大学、苏黎世联邦工学院和中国科学院。然后,亚马逊、IBM、阿里巴巴等企业跌出榜单。总体来看,去年入榜的高校数量为 12 家,而今年增至 14 家;去年入榜企业数量为 7 家,今年降至 3 家;去年入榜科研机构数量为 1 家,今年增至 2 家;去年高校学者数量为 294 人次;今年增至 390 人次;去年企业学者数量为 434 人次,今年降至 344 人次;去年企业学者数量为 37 人次,今年增至 51 人次。表 2 2023 年与 2022 年 TOP 20 机构数量与人次数量对比年度高校数量企业数量科研机构数量高校人次数企业人次数科研机构人次数2022 年1271294434372023 年14 4 2 390 344 51 单位:人次数据来源:AMiner。(三)清华大学再度成为我国入选学者最多的机构,入选人次和全球排名相较于去年均有所上升2023 年,清华大学入选数量为 34 人次,全球排名第八,中国排名第一;去年该校以 21 人次的数量,全球排名十一。与全球机构的性质变化相似,高校入选数量呈现呈上升趋势。2023 年,中国 TOP 10 机构中高校数量为六家,新增机构为中国科学技术大学和香港科技大学。6表 3 AI 2000 中国 TOP 10 机构单位:人次数据来源:AMiner。(四)AI 新势力进一步崛起,近五年新成立的机构有 62 家,其中 33 家来自美国过去五年,伴随着 AIGC(人工智能生成内容)、ChatGPT、大模型等人工智能技术的崛起,一代又一代的新型 AI 产业、新物种层出不穷,犹如一部部精彩纷呈的历史大戏,影响深远。通过对全球 AI2000 机构进行深度挖掘,我们可以发现,2023 年入榜的 533 家机构中有 62家为 2018 年以后才正式成立的新兴机构,其中有超过半数的 33 家机构来自美国,5 家机构来自中国。此外,2021 年有多达 17 家 AI 新兴机构成立,进一步推动了工智能技术的发展与产业落地。数据来源:AMiner。图 6 20182023 年新兴 AI 机构分布7AI2000 学者领域分布2023 年,AI 2000 人工智能全球最具影响力学者覆盖经典人工智能、机器学习、计算机视觉、自然语言处理等 20 个子领域,每个子领域 100 人,共计 2,000 人次,1,862 位学者入选,其中单领域学者 1,724 人,多领域学者 138 人。(一)美国在绝大多数子领域的学者数量最多,中国在 AAAI/IJCAI 和多媒体两个子领域的学者人数最多在人工智能 20 个子领域中,美国在 18 个子领域的 AI 2000 学者人数名列第一,特别是在计算机网络、计算理论和语音识别领域,其入选学者全球占比超过七成。单位:人次数据来源:AMiner。图 7 人工智能 20 个子领域入榜学者所在国家分布中国经典人工智能(AAAI/IJCAI)和多媒体两个子领域的入榜学者数量全球领先,分别为三846 人和 45 人;在芯片技术、物联网、信息检索与推荐、数据挖掘、计算机视觉、可视化、自然语言处理、数据库、计算机网络这 9 个子领域的入榜学者数量均位居全球第二位。(二)我国在计算机理论和人机交互两个子领域无学者入榜我国在计算机理论和人机交互和知识工程两个子领域无学者入榜。另外,在机器学习(5 人)、计算机系统(4 人)、语音识别(4 人)、机器人(2 人)、知识工程(2 人)、安全与隐私(1 人)和计算机系统(1 人)七个领域入选学者不足 5 人。因此,我国在上述人工智能九个子领域面临顶尖人才实力较薄弱的局面。公司简介智谱 AI 致力于打造新一代认知智能大模型,专注于做大模型的中国创新。公司于 2020 年底开始研发 GLM 预训练架构,并训练了百亿参数模型 GLM-10B,2021 年利用 MoE 架构成功训练出万亿稀疏模型,于 2022 年合作研发了双语千亿级超大规模预训练模型GLM-130B,并基于此千亿基座模型打造大模型平台及产品矩阵。公司践行 Model as a Service(MaaS)的市场理念,推出大模型 MaaS 开放平台(https:/ 开发新范式,实现服务效率的提升。2023 年,智谱 AI 推出了千亿基座的对话模型 ChatGLM,并开源单卡版模型 ChatGLM-6B,使得研究者和个人开发者进行微调和部署成为可能。2023 年 6 月,ChatGLM2 正式发布,千亿基座对话模型全系升级,提供丰富尺寸,适用于多种场景。在细分领域方面,团队打造了 AIGC 模型及产品矩阵,包括高效率代码模型 CodeGeeX、高精度文图生成模型 CogView、多模态对话语言模型 VisualGLM-6B 等。通过认知大模型链接物理世界的亿级用户,智谱 AI 基于完整的模型生态和全流程技术支持,为千行百业带来持续创新与变革,加速迈向通用人工智能的时代。官网请见()Zhipu AI is an artifificial intelligence company with the mission of teachingmachines to think like humans.Our world-leading AI team has developed thecutting-edge large language and multimodal models(e.g.,GLM-130B,ChatGLM,CodeGeeX,and CogView)and built the high-precision billion-scale knowledgegraphs,the combination of which uniquely empowers us to create a powerful data-and knowledge-driven cognitive engine towards artifificial general intelligence.Our intelligence services include industry-leading Model as a Service(MaaS),digitalhumans,andscientififictechnologicalinformationsolutions,servingthousands of enterprise and government customers.For all ofthese,the team haswon the ACM SIGKDD Test of Time Award,the National Science and TechnologyAward(2nd),and the Beijing Invention Patent Award(1st).By leveraging the immense potential of large cognitive models,Zhipu AI connectsbillionsof usersin the physicalworld,driving continuousinnovation andtransformation across diverse industries.Our ultimate goal is to accelerate progresstowards AGI.For more information,please visit our official website at .让 机 器 像 人 一 样 思 考商务合作:公司地址:北京市海淀区中关村东路 1 号院 9 号楼 10 层
行业大模型标准体系及能力架构研究报告I腾讯云计算腾讯云计算(北京北京)有限责任公司有限责任公司中国信息通信研究院云计算与大数据研究所中国信息通信研究院云计算与大数据研究所行业大模型标准体系及能力架构研究报告II推荐序推荐序“就模型而言,比起通用大模型,企业更需要针对具体行业的大模型,并结合企业自身的数据进行训练和精调,以打造出更实用的智能服务。通过研究行业大模型的标准体系及能力架构,可以更好地引导企业构建自有大模型,我们希望此次的研究成果,可以为行业的大模型应用带来更多的帮助。”腾讯集团高级执行副总裁、云与智慧产业事业群 CEO 汤道生“随着人工智能技术的快速发展,行业大模型已成为推动产业升级的重要驱动力。为了规范和引领行业大模型的健康、可持续发展,有必要构建行业大模型的标准体系,以科学评价大模型技术能力和应用效果。愿本次研究成果,助力大模型产业发展和生态建设。”中国信息通信研究院云计算与大数据研究所所长 何宝宏“我们通过希望行业大模型标准体系及能力架构研究报告,能够帮助行业伙伴解决如何将大模型能力“应用”到自身的行业和场景里的问题,可以更有效的解决成本、数据、安全,合规等大模型实际落地难题。通过建立标准体系,为行业大模型的建设和应用提供指引和支持。”腾讯法务副总裁 江波行业大模型标准体系及能力架构研究报告III行业大模型标准体系及行业大模型标准体系及能力架构研究报告能力架构研究报告行业大模型标准体系及能力架构研究报告IV版权声明版权声明本报告版权属于腾讯云计算(北京)有限责任公司和中国信息通信研究院云计算与大数据研究所,并受法律保护。转载、摘抄或利用其他方式使用本报告文字或观点的,应注明“来源:腾讯云计算(北京)有限责任公司和中国信息通信研究院云计算与大数据研究所”。违反上述声明者,公司和研究院保留追究其法律责任的权利。行业大模型标准体系及能力架构研究报告V编委会编委会 顾问:顾问:吴运声吴运声、魏凯魏凯、王麒王麒、吴永坚吴永坚、徐炎徐炎、江波江波、杨鹏杨鹏、徐樱丹徐樱丹、张张军、方腾飞军、方腾飞 主编:主编:孙星孙星、曹峰曹峰、黄晶莹黄晶莹、李荪李荪、侯方侯方、韩旭韩旭、李牧青李牧青、王颖王颖、赵丹赵丹萍萍、黄小明黄小明、梁小龙梁小龙、王川南王川南、尹迪尹迪、赵登梧赵登梧、胡哲胡哲、李珂李珂、马马雁翔、戚蕴、汪凯峰、叶国宇、周为洲、韩利明、严敏、胡纯雁翔、戚蕴、汪凯峰、叶国宇、周为洲、韩利明、严敏、胡纯、李超李超、何茂亮何茂亮、宋宜徽宋宜徽、梅述家梅述家、代威代威、徐永太徐永太、黄超黄超、刘海涛刘海涛、李建慧李建慧、蒋增增蒋增增、王永霞王永霞、武杨武杨、郑剑锋郑剑锋、倪平倪平、李克鹏李克鹏、刘震刘震宇宇 策划:策划:周威、王成、程力鑫、周军军、赵紫良、周威、王成、程力鑫、周军军、赵紫良、方海璇方海璇行业大模型标准体系及能力架构研究报告VI前言前言当前,随着人工智能技术的不断发展,深度学习模型的规模逐渐增大,性能显著提升,各行各业迎来了新的发展机遇。通用大模型作为通用技术基座,在多个任务和领域上均表现出较好的性能,但由于缺乏专业知识与行业数据,并不能精准解决某个行业或企业的特定需求和问题,而且通用大模型的构建和训练成本通常很高,难以实现商用。为更好解决特定行业问题,行业大模型应运而生。行业大模型可满足特定场景需求,更好地为行业提供优质的服务,促进行业智能化转型升级。为促进行业大模型的健康快速发展,我们充分研究了构建行业大模型所需能力及构建方式,提出了行业大模型构建路线图及相应的标准体系,用以指导企业建设大模型能力。行业大模型构建路线图围绕行业需求分析与资源评估、行业数据与大模型共建、行业大模型微调与优化三方面展开,以更专业、成本更低的方式,引导行业和企业建立特有的大模型服务。大模型标准体系围绕大模型基础能力和特定行业特定场景服务能力展开对大模型能力进行全方位评估,保证大模型快速高质量发展。行业大模型标准体系及能力架构研究报告VII目录目录第一章第一章 行业大模型开启产业升级的行业大模型开启产业升级的“黄金时代黄金时代”.1(一)大模型技术应用不断演进,迎来发展新机遇.1(二)MaaS 支持大模型应用落地全流程能力构建.3(三)场景化需求快速推动大模型价值释放.6(四)行业大模型应用落地亟需建设路线指引.8第二章第二章 行业大模型构建路线图,指导企业建设大模型能力行业大模型构建路线图,指导企业建设大模型能力.11(一)行业需求分析与资源评估.111.业务需求评估.122.算力层评估.123.算法层评估.154.数据层评估.155.工程层评估.16(二)行业数据与大模型共建.171.明确场景目标.172.模型选择.183.训练环境搭建.194.数据处理.205.模型训练共建.21(三)行业大模型精调与优化部署.221.模型精调.222.模型评估.243.模型重训优化.264.模型联调部署.26行业大模型标准体系及能力架构研究报告VIII5.模型应用运营.27第三章第三章 大模型标准体系先行,全面建立能力指标体系大模型标准体系先行,全面建立能力指标体系.28(一)聚焦工程化应用,五大维度评估行业大模型基础能力.281.模型开发标准.282.模型能力标准.293.模型应用标准.304.模型运营标准.315.安全可信标准.32(二)围绕特定行业和场景需求,评估行业大模型服务能力.331.金融大模型标准.332.文旅大模型标准.343.政务大模型标准.354.传媒大模型标准.365.电信大模型标准.376.教育大模型标准.387.工业大模型标准.398.汽车大模型标准.409.家居大模型标准.41第四章第四章 行业大模型应用行业大模型应用“百花齐放百花齐放”,价值不断释放,价值不断释放.43(一)文旅典型案例.43(二)金融典型案例.46(三)传媒典型案例.47第五章第五章 行业大模型行业大模型“千行百业千行百业”落地,驱动落地,驱动 AI 原生应用发展原生应用发展.49行业大模型标准体系及能力架构研究报告1第一章第一章 行业大模型开启产业升级的行业大模型开启产业升级的“黄金时代黄金时代”目前,国内外公司纷纷发布大模型,涉及通用大模型、行业大模型、垂直大模型与专属大模型,一些超强模型服务背后是千亿或万亿参数的基础模型。大模型的诞生标志着人工智能领域的一大步,能够在各种任务中达到更高的准确性、降低应用的开发门槛、增强模型泛化能力等,催生出新的场景和产业模式,快速推动产业智能化应用落地。(一一)大模型技术应用不断演进,迎来发展新机遇大模型技术应用不断演进,迎来发展新机遇随着 ChatGPT(Chat Generative Pre-trained Transformer,对话生成式预训练变换模型)的问世,大模型进入快速发展的时代。一些超强模型服务背后是千亿或万亿参数的基础模型,通过学习丰富的知识,成为与人类交互及连接万物的工具。图 1 通用大模型的发展2016 年 Open AI 发布 Gym 强化学习平台。从 2018 年 GPT-1 问世以来,模型参数从 GPT-1 的 1.17 亿,经过不断迭代,增长到 GPT-4的 1.76 万亿的参数规模,通用大模型的性能,也得到了显著的提升。行业大模型标准体系及能力架构研究报告2斯坦福大学的研究发现,GPT-3 已经可以解决 70%的心智理论任务,相当于 7 岁儿童;至于 GPT3.5,更是解决了 93%的任务,心智相当于 9 岁儿童!2022 年 11 月,ChatGPT 正式发布,是基于 GPT-3.5 架构并通过强化学习训练后的大语言模型,目前仍以文字方式互动,支持包括自动文本生成、自动问答、自动摘要等多种任务。Google 从 2017 年 6 月,发布 Transformer 架构以来,陆续发布了 BERT、T5 等预训练模型,参数规模也在逐步提升。当前大部分大模型均利用 Transformer 架构搭建。近期,Google 发布的通才模型PaLM-E,包含 5620 亿参数,可用于控制机器人,为通用人工智能(AGI)的实现提供了可能。图 2 Google PaLM-E 大模型控制机器人Meta 于 2023 年 2 月开源大模型 LLaMA,已经对大模型的产业链上下游产生极其重要的影响,带动了 Alpaca、Vicuna、FreeWilly2、BELLE、Chinese-LLaMA、Yuan-Chat、MiniGPT-4 等几十个开源大模行业大模型标准体系及能力架构研究报告3型,形成了“羊驼”开源大模型生态圈。7 月开源大模型 LLaMA2 发布,一定程度上降低了商业化部署的成本。图 3 LLaMA 大模型生态圈(二二)MaaSMaaS 支持大模型应用落地全流程能力构建支持大模型应用落地全流程能力构建MaaS(Model-as-a-service,模型即服务)提供了一整套大模型服务工具链和开放平台,行业用户基于行业基础大模型,利用整体的模型套件经过精调再训练,生成满足特定场景需求的专属大模型。与提供基础设施的 IaaS(基础设施即服务)、提供工具的平台即服务(PaaS)和提供软件的 SaaS(软件即服务)相比,MaaS(模型即服务)以模型作为交付目标。基于 MaaS 构建的一站式行业大模型构建和应用解决方案,围绕模型的生命周期提供各种的产品和技术,辅助行业用户从数据预处理、模型构建、模型训练、模型评估到模型服务实现全流程能力构建。解决了企业构建行业大模型成本高、时间长、难度大的问题,降低数字化转型的成本和风险,支撑客户快速实现大模型应用的产品化和商业化,更快地实现数字化转型和升级。行业大模型标准体系及能力架构研究报告4图 4 MaaS 解决方案行业用户利用 MaaS 构建专属的行业模型,可以根据自有数据进行精调,通过训练加速、推理加速完成模型的构建。构建专属行业模型,将预处理完成的数据,载入机器学习平台,选取特定算法并调试,载入特定模型完成训练任务,最后,通过压缩裁剪的方式优化调整模型,并完成模型的注册及验证测试工作,通过测试验证的模型将正式发布和部署。MaaS 通常内置了行业大模型和工具箱,配套标准化流程和落地服务,支持行业用户进行行业大模型的精调,生成符合需求的定制化模型,并在此基础上进行部署,构建行业用户的智能应用,具体来说包括以下两个方面。第一,MaaS 可以通过基础行业大模型、定制场景大模型、模型推理服务 API 等不同的方式,为企业用户提供灵活和定制化服务。企业用户可以利用企业特有数据对大模型进行自主训练,完成模型的精调工作。企业用户可以根据特定业务场景,通过对话、问答、问答挖行业大模型标准体系及能力架构研究报告5掘、相似问句生成等任务,再次进行微调,仅需少量自训练数据量就可以得到企业专属的大模型。自主训练措施包括通过关键词提示、上下文提示、类别提示、语义提示等问答提示工程方式,完成对特定任务的无监督训练。第二,MaaS 可以提供公有云的部署流程、私有化的部署流程,以及混合化部署多样化部署方式。公有云部署,在训练阶段用户先将数据上传到云存储并做好训练代码和环境的准备,完成训练任务后存储模型并进行模型评测。用户行业用户可以在公有云直接购买并使用公有云的机器资源,经过精调和二次训练,生成行业用户的专属大模型,并应用于业务系统,这样可以降低行业用户的训练成本。私有化部署,技术服务提供商可提供基础行业模型并部署在用户本地,用户在本地进行数据训练和模型精调,并调用本地算力和存储资源,完成模型二次训练,满足用户对于敏感数据的隐私保护。混合部署,可以将公有云方式与本地化部署方式相结合,精调训练数据的过程可以在本地进行,通过部署私有化的软件与服务完成模型的精调任务,满足用户部署多样灵活的需求。图 5 公有化方式部署行业大模型标准体系及能力架构研究报告6图 6 私有化方式部署图 7 混合方式部署(三三)场景化需求快速推动大模型价值释放场景化需求快速推动大模型价值释放大模型受益于技术能力的提升和多样化的场景需求,如今其自身正是人工智能领域最大的动力之源,推动人工智能从技术积累、行业应用、产业变革到赋能千行百业的基础设施。行业大模型标准体系及能力架构研究报告7图 8 大模型在场景中的应用智能问答,应用于金融、文旅、政务等各个行业,根据不同行业的特征数据,生成对应场景的特定应用,产品类型包括语音助手、企业客服、呼叫中心、专家咨询、智能助教、智能导诊、销售助手、培训辅导等。内容创作,行业客户可以依据产品特点,利用大模型生成特色文案,助力产品的推广;大模型应用于模板创作、剧本创作、编曲填词,为原创作者增加创意元素,协助作者更好的创作;大模型辅助新闻从业者生成访谈提纲、新闻摘要等;大模型辅助研究人员和教育工作者生成论文摘要、课程设计等,更快速的掌握知识或进行课程的编排。推荐系统,大模型可以根据历史销售数据和客户反馈,学习并生成个性化的销售话术,帮助销售人员更快速地了解客户需求,准确推荐产品,提高销售转化率;大模型通过分析大量的销售数据,提供预测分析功能,帮助销售人员更好地理解市场需求和销售趋势;基于客户的购买历史和偏好,大模型生成智能推荐系统,为不同客户提供个行业大模型标准体系及能力架构研究报告8性化的产品推荐和营销活动;利用大模型创建自动化工作流程,自动生成跟进任务或提醒,减少人工操作失误,提高销售团队的效率。风控模型,基于 AI 大模型的智能风控系统可以通过分析海量数据,利用图神经网络、对抗生成网络和异常检测等技术,挖掘潜在的风险因素,识别异常行为,实时监测金融市场的风险变化,帮助金融机构避免损失,辅助金融机构能够进行更精准的风险评估和信用评估。除了以上场景,大模型在自动驾驶、智能运维、代码助手等很多方面都有着广泛的应用空间和产业需求。(四四)行业大模型应用落地亟需建设路线指引行业大模型应用落地亟需建设路线指引通用大模型在一定程度上很难满足行业用户的直接需求,首先是模型所包含的参数量巨大,训练和部署对算力的消耗十分巨大,成本高昂;其次是模型的可解释性仍然较弱,通常需要增加内容管控手段保证结果的安全性;最后是模型对训练数据的依赖性仍然很强,对超出训练数据的任务效果不尽如人意。更为重要的是,在一些特定的行业,通用基础大模型的表现并不理想,因此行业大模型应运而生。行业大模型,通常基于该行业领域的数据进行训练和优化,更好地理解和处理该行业的专业术语、规范和语义。行业大模型更加专注于某个特定的行业,满足对应行业的需求。目前产业的行业大模型解决方案,助力构建专属大模型及智能应用,并结合自身在算力方面的优势,为行业模型训练提供强大的支持和动力。但是,行业大模型最终要在真实场景落地,达到理想的服务效果,需要充分解决行业用户行业大模型标准体系及能力架构研究报告9的痛点。目前行业用户所面临的问题包括计算资源少、数据质量差、投入成本高,专业人才稀缺等突出问题。图 9 行业选择应用大模型的痛点计算资源方面,大模型的训练,需要对计算资源和存储资源提出较高要求,对于很多行业用户而言门槛很高,现有的资源难以支持大模型的训练和推理。同时高质量的行业知识库和训练数据是行业大模型构建的关键要素,模型训练过程,需要大量高质量的数据进行训练和优化。数据质量方面,行业用户在模型训练过程中,经常会因为数据各类问题,导致大模型的效果和效率无法得到保障。成本投入方面,在确保业务使用的效果和可持续性方面,行业用户需要投入很高量级的数据、计算资源、专业技术和时间来训练、调试、优化并部署实施,成本极高。专业人才方面,行业客户通常缺少 AI 领域技术人才的储备,模型的开发落地通常对技术人才有很高的要求,相关资源的缺失影响大模型在产业的快速落地和持续优化。行业大模型标准体系及能力架构研究报告10面对这些痛点和问题,需要行业大模型技术服务提供商,提供行业大模型精调解决方案,帮助模型开发者与算法工程师,一站式解决数据的处理问题,高效率、高品质、低成本地创建和使用大模型。满足不同行业用户的不同部署需求,支持私有化本地部署的方式,在权限管控、数据加密等方面提供完善的方案。技术服务提供商,应该为行业用户,提供例如金融、文旅、政务、传媒、教育等各行业的基础行业大模型,便于行业用户基于基础模型,进行便捷的精调,以支持不同业务场景和应用的开发。行业大模型标准体系及能力架构研究报告11第二章第二章 行业大模型构建路线图,指导企业建设大模型能力行业大模型构建路线图,指导企业建设大模型能力行业大模型的构建可以加速行业用户的数字化转型效率,提升企业的服务质量。但行业大模型的构建,对行业数据、计算资源和部署运维等提出较高的要求,这对于很多行业用户而言有一定的门槛。更为重要的是,当前缺乏面向行业大模型的构建方法和流程的指导方案,企业用户不清楚如何着手构建行业大模型。本章针对垂直领域的行业大模型,建立标准化流程,具体涵盖业务需求分析与资源评估、行业数据与大模型共建、行业大模型微调与优化部署等关键环节,并对每个关键步骤的细节进行分析。图 10 行业大模型构建路线图(一)行业需求分析与资源评估图 11 行业大模型评估流程构建行业大模型首先需要对业务需求和资源进行评估,具体包括包括业务需求评估、算力层评估、算法层评估、数据层评估和工程层评估等。行业大模型标准体系及能力架构研究报告121.业务需求评估业务需求评估主要是明确业务的具体需求,将业务需求转换为明确、可量化的目标,从而确定行业模型构建的基本方向。行业用户可以结合实际场景和需求,对以下三点进行明确:(1)业务数据:明确需要处理的数据模态。不同的数据模型影响基础大模型的选择;(2)业务指标:将业务需求初步细化为多个子任务,明确各子任务的期望指标;(3)业务服务方式:明确行业用户需要的服务方式。服务方式包括私有化部署或公有化部署,行业用户可以基于技术服务商提供的基础大模型进行私有化部署,也可以利用自有的大模型,通过技术服务提供商提供的模型工具,丰富私有化的部署手段。同样,采用公有云部署的行业用户,也可以根据实际业务需要,确定使用自有的大模型或是由技术服务提供商提供的基础模型。2.算力层评估算力层评估主要是确定行业大模型在实际训练和部署中需要使用的算力资源类型和大小,从而对成本和进行时间预估。在算力评估方面,行业用户需要重点评估计算、存储和网络三部分。行业大模型标准体系及能力架构研究报告13图 12 算力层评估内容一是计算能力,需要考量不同算力上的行业大模型训练时长和成本情况。训练所需要的资源,通常与模型的参数量级,标注后的数据集大小相关。结合训练所采用的芯片、所支持计算网络,以及所选用的精调算法,可以评估单次训练时长。算力层评估可以在模型训练和部署层面上分别进行评估:(1)模型训练算力评估,以通用单卡芯片为例,计算能力可达到 312 TFLOPS,若基础大模型参数为百亿,采用有监督的参数精调(SFT)方式,标注后数据集为 1GB,采用 RDMA100G 网络,这通常需要 32 张卡,每次训练耗时 2 至 3 周;若精调采用 Lora 方式,每次训练耗时可缩短到 1 周。(2)模型推理算力评估,推理所需要的算力资源,通常以 QPS(每秒查询数)评估,这与模型参数、芯片型号和数量相关。生成类模型的推理性能,一般以每秒生成的 token 数衡量。若模型参数达到百亿,运行大小 30G,在 2 卡条件下,QPS 约可达到 130 tokens/s。行业大模型标准体系及能力架构研究报告14二是存储方案,训练数据和大模型需要大量的存储空间,行业用户可以根据训练数据的大小,评估所采用的存储方案。当前,有多类的存储方案可以选择,包括:(1)对象存储 COS(Cloud Object Storage),读取模式可谓下载数据到训练机器本地,读写速度可以超过 0.42GB/s,若采用COS GooseFS 存储方案,可以提供基于对象存储的多层缓存加速,IOPS 可达 20 万;(2)文件存储 CFS(Cloud Files Storage),IOPS 可达 3 万,若采用 CFS Turbo 方案,IOPS 可达 300 万。通常训练数据小于 50GB 时,行业用户可采用 COS 或 CFS 方案。当训练数据大于 50GB 时,行业用户可采用 COS GooseFS 或 CFSTurbo 的方案。三是网络通信,当前大模型主要采用分布式训练的方式,训练节点间的通信问题严重影响训练效率。行业用户可以根据模型的参数量级和训练数据量,选择所采用的网络技术。行业大模型的训练需要高性能的网络支持,通常需要至少支持 RDMA 100G 的网络。RDMA技术是为解决网络传输中服务器数据处理的延迟而应用的技术,其支持跨过操作系统的内核开销,直接访问到网卡。支持 RDMA 网络的主流技术包括 RoCE 和 InfiniBand:(1)RoCE 是在以太网上实现 RDMA,目前的 RoCE v2 协议已经可以实现 RDMA 路由在第三层以太网络中传输,可以支持高性能和横向扩展架构;行业大模型标准体系及能力架构研究报告15(2)InfiniBand 可以实现更高的传输性能,实现网络网卡间的无损通信,需要专用交换机。InfiniBand 的网络延迟极低,可达 100ns。3.算法层评估目前基础大模型和微调算法众多,算法层评估主要根据业务需求和算力资源的限制,确定最适合业务场景的大模型和精调算法。在基础大模型选择方面,首先,行业用户应参照业务需求,根据需要处理的数据类型,选择基础的语言大模型、视觉大模型或语音大模型等;其次,根据需要完成的任务,选择对应任务版本大模型,例如,需要完成客服任务,应该选择已经在对话数据集上微调过的基础大模型;随后,根据部署的硬件资源要求,选择大模型的参数版本。在精调算法选择方面,结合算力和时间要求,可以选择不同的精调算法。在评估精调算法时,可以采用少量的样本数据先行进行评估,以保证精调的效果。以大语言模型精调为例,当前可采用的精调算法包括有监督的参数精调(SFT)或参数高效精调(Parameter-EfficientFine-Tuning,PEFT)。4.数据层评估行业用户应根据业务的实际情况以及期望目标,明确数据规模、数据质量和数据安全隐私等问题,从而完成数据层的评估。在数据规模方面,需要行业用户有一定的数据积累,通常行业大模型建设需要 400500 万条数据,根据不同的场景可以有一定的浮动。数据规模一般以 GB 或条数进行量化,其中一条数据是指行业用户在指定场景下的一次最小单元场景的实现过程。例如,在公文写作行业大模型标准体系及能力架构研究报告16场景,一条数据就是一篇完整的公文;在客服场景,一条数据就是一次问答或是一次客服多轮对话的过程。在进行数据准备时,可以先使用少量数据进行评估,例如 300500 条。在数据质量方面,由于其对模型的效果影响会很大,推荐引入人工的标注和确认,至少从原始数据中挑选一定比例进行标注,从而构建并严重高质量的数据集。行业用户正式归档或是正式业务系统标注留存的数据,通常质量较高。在数据安全和隐私保护方面,行业用户需要评估数据是否包含个人信息、敏感信息等,必要时需要对原始数据进行脱敏处理。在数据格式方面,需确定具体数据格式包括哪些。如文本数据、音频数据或是其他格式类型。无监督数据,即原始数据,数据的格式可以是网页数据、PDF、WORD、PPT 或是语音类;有监督数据,即经过标注的数据,数据格式可以为 json 或 Query 格式。5.工程层评估在构建行业大模型时,行业用户可以选择配套工具或第三方平台提升模型构建效率。因此,需要根据需求目标和构建成本对工程工具和平台等进行选择。行业用户需要评估模型训练所需的算法模型平台,确定平台适配性和训练流程。通常模型训练平台具有从数据预处理、模型训练、自动学习、模型评估到模型发布部署的全流程支持能力。具体可以考虑以下几个方面:(1)模型训练平台是否包含需要的基础大模型或基础行业大模型,例如金融行业基础大模型、文旅行业基础大模型等;行业大模型标准体系及能力架构研究报告17(2)数据标注平台是否可以提供数据标注作业、场景数据挖掘等数据生产服务;(3)训练和部署加速库是否具有加速组件,相应加速组件会有效提升模型训练的效率;(4)数据应用平台是否支持快速接入模型、数据和智能设备,提供模型服务、应用工作流编排、云边端调度等;(5)部署兼容性,行业用户需要评估希望部署的平台与行业大模型的兼容性,确认能否能够通过升级的方式进行更新;(6)模型加密,行业用户需要确认是否需要针对内置的模型加密,以防止模型本身的泄露问题。(二)行业数据与大模型共建行业数据与大模型共建包括明确场景目标、模型选择、训练环境搭建、数据处理等环节。1.明确场景目标明确行业大模型实际应用场景及模型评价目标。例如金融领域,覆盖的业务场景可以包括风险控制、客服顾问、投资行研等。不同的业务场景,对于模型的评价目标会有不同。在风控场景,模型的评价目标主要为风险预警精确率、召回率、F1 值等;在客服顾问场景,模型的评价目标主要为平均响应时间、客户满意度等;在投资行研场景,模型的评价目标主要为数据准确性、成本效益等。与金融领域类似,在文旅领域,覆盖的业务场景可以包括行程定制、文案策划、讲解互动等。在行程制定场景,模型的评价目标主要为推荐准确性、定行业大模型标准体系及能力架构研究报告18制匹配度等;在文案策划场景,模型的评价目标主要为信息覆盖度、文案创新性等;在讲解互动场景,模型的评价目标主要为响应时间、互动准确度等。在传媒、政务、教育等其他领域,明确实际应用场景及模型评价目标也都是关键环节。2.模型选择明确模型选型。根据大模型的基础应用领域,大模型可分为 NLP大模型、CV 大模型、多模态大模型等。行业客户应根据大模型的基础应用领域,确定所选择的模型。NLP 大模型主要用于自然语言处理,可以在客户服务、智能助手、问答文稿生成等领域,理解问题和需求,提供准确的解答和建议。如果行业用户的场景目标为智能客服领域,模型应选择 NLP 大模型。在此基础上,结合训练资源情况,选择所处行业优化适配的行业基础大模型,如 LLaMA、ChatGLM 等。CV 大模型主要用于机器视觉,CV 大模型可以在图像分类、目标检测、图像分割、视频修复等领域,完成相应任务。CV 大模型的构建通常基于卷积神经网络、循环神经网络和注意力机制等,通常基于预训练模型,输出目标特征,并结合特征聚合模块,增强模型的全局图像感知能力,支持文字粒度、文本框粒度、整图粒度的特征表示,支持信息的抽取和识别。如果行业用户的场景目标为图像识别、视频修复,模型应选择 CV 大模型,并在此基础上,结合训练资源情况,选择所处行业优化适配的行业基础大模型。行业大模型标准体系及能力架构研究报告19多模态大模型主要用于跨模态场景,其相较于 NLP 类大模型,融合了文字、图像、三维物体、声音等多维度的处理能力,可以有更丰富的应用场景。多模态大模型通过多模态语义理解、跨模态推理、多模态生成等技术进行构建,以实现跨模态的信息表达和交互,实现高精度、细粒度的模态融合。如果行业用户的场景目标为跨模态场景,如文生图、语音生成文案等,可选择多模态大模型,并根据训练资源情况,选择所处行业优化适配的行业基础大模型。多模态大模型的训练,通常对数据和算力方面的要求较高,所需的数据量和多样的数据类型较大,在训练和推理阶段消耗的资源较高。3.训练环境搭建搭建模型训练环境,包括硬件环境的搭建和软件平台的构建。其中硬件环境的搭建主要涉及计算、存储、网络等方面;软件平台的构建主要涉及模型训练平台的选择、数据标注、加速组件等环境的建设。在硬件方面,行业用户可以根据资源及需求情况配置训练所需的计算、存储和网络资源,可优选支持容器 GPU 共享技术的计算资源;优选配置分布式的存储架构,配置多层次的存储加速引擎;优选支持GPU 直连的高吞吐量的 RDMA 网络。行业客户可以配置向量数据库,以支持 10 亿级的向量规模,日处理千亿级的检索能力。在软件方面,行业用户需要结合自身情况,选择优质的模型训练平台。优质的模型训练平台,可以提升模型训练、优化、评估、部署的整体效率。模型训练平台会预置多种 AI 任务的预训练模型及调优流程,支持用户数据准备与设置超参数,支持多种训练任务的调度和行业大模型标准体系及能力架构研究报告20管理,支持自动化完成训练流程。行业用户可以应用独立的数据标注平台,完善数据集管理和数据标注的能力。加速组件应配置支持异步调度优化、显存优化、计算优化的环境,支持数据并行及模型并行。4.数据处理数据处理,将数据加工为模型训练所需数据,包括原始数据处理、数据标注、数据集划分等步骤。行业用户处理原始数据主要包括三个步骤,首先,对原始数据进行脱敏处理,以保证隐私及数据合规使用。原始数据可以来自公开数据集或是由实际业务系统收集的数据。其次,对数据进行预处理,包括去除噪声、去重、文本清洗、数据标注、切块等步骤。最后,通过数据转换、数据清洗、数据增强等,减少数据异常、缺失、冗余的问题,保证数据集的高质量。数据可分为结构化数据和文本、图像、音视频等非结构化数据。结构化的数据预处理包括去重、处理缺失值和无效值等;文本数据的预处理包括降低字频、补充生僻字等;图像数据的预处理包括旋转、翻转、裁切等;音频数据的预处理包括降噪等;视频数据的预处理包括抽帧等。数据标注,当使用文本、图像等非结构化数据时,需要对处理好的数据进行标注。例如,文本类对象需要标注文字检测框、文字内容等;图像类对象需要标注目标检测框、实例分割块、关键点等;视频类对象需要标注目标识别框、语音分割块等;音频类对象需要标注语音、语调、音素等。行业大模型标准体系及能力架构研究报告21数据集划分,数据集可以划分为训练集、验证集、测试集,其中训练集用于训练模型,通常包括无监督训练集和少量精标数据集;验证集可以用于模型超参数(hyper-parameter)的调整,以及过拟合情况的评估;测试集可以用于评估模型的最终性能。5.模型训练共建模型训练共建,对选定模型进行训练。模型训练中的核心要点是快速找到模型的最佳算法及对应的超参数。超参数的选择方法通常包括手动搜索、自动搜索等。行业大模型的训练过程,需要通过大规模的行业无监督数据进行自监督训练和有监督数据进行有监督的调优得到。在行业大模型的预训练过程中,可以通过增加有监督精调的数据,在预训练阶段就学习到更多的知识。模型训练应采用分布式并行训练技术,在训练过程中使用 GPU集群(多机多卡)来提升训练速度。并行训练,包括数据并行、模型并行的训练模式,数据并行是指在多个设备上拷贝一份完整的模型参数,输入不同的数据参与计算,同步梯度,并行处理完成数据的训练;模型并行是指在多个设备上切分模型参数到各个 GPU,每个设备输入相同数据,同步参数,并行处理完成训练。模型训练共建流程为由行业用户将数据上传训练平台、准备训练代码和环境、发起模型训练任务、存储训练后的模型、测评训练后的模型。数据上传过程中,如采用公有云的部署方式,需要开通相应的存储资源,如采用本地化的部署方式,需要提前配置相应的私有化原行业大模型标准体系及能力架构研究报告22件和服务。在准备训练代码前,需要配置完成相应的计算资源,可以根据不同的应用场景和模型特性,调整启动方式,配置对应的模型路径和数据路径。在结束模型训练后,需要经过必要的测评,才能部署发布。(三)行业大模型精调与优化部署行业大模型精调与优化部署包括模型精调、模型评估、模型重训优化、模型联调部署、模型应用运营等阶段。1.模型精调模型精调,首先选择合适的精调算法,精调算法选定后,利用前期准备的特定行业特定场景数据进行大模型的训练精调。目前行业大模型常用的精调算法,包括有监督精调算法和参数高效精调算法等。有监督精调(SFT)根据不同的任务及目标,将预训练模型的权重全部更新。有监督精调的具体做法是为目标模型添加一个大小为目标数据集类别个数的输出层,并随机初始化该层的模型参数。在精调过程中,通过反向传播算法等对模型参数进行更新,使得模型在目标任务上表现更好。有监督精调,需要大量的标注数据用于目标任务,通常其所需的资源和时间会较多。行业大模型标准体系及能力架构研究报告23图 13 有监督的参数精调(SFT)参数高效精调(PEFT)一般针对特定的参数进行有效微调。常用的参数高效精调技术,包括模型蒸馏(distillation)、适配器训练(adapter training)、渐进收缩(progressive shrinking)等。模型蒸馏,主要通过训练一个较小的模型,模仿较大的预训练模型,将预训练模型生成的预测结果,训练生成较小的模型,结合较大模型的知识学习情况,无需存储所有参数。适配器训练,是指在预训练模型中增加小型神经网络,用于特定任务的精调。这些适配器只占原始模型的一小部分,通常训练更快,对内存的需求更低。适配器可以针对多种任务进行训练,然后插入到预训练模型中以执行新任务。渐进收缩,主要涉及在精调期间逐渐减小预训练模型的大小。从一个大模型开始,逐渐减少参数的数量,直到达到所需的性能。这种方法可以产生比从头开始训练的模型性能更好的小型模型。目前在行业大模型精调中,参数高效精调(PEFT)的主流方法包括 P-tuning v2、LORA 等。其中 P-tuning v2 是由 Prefix-tuning 和Prompt-tuning优化而来。P-tuning v2在每一层都加入了Prompts tokens行业大模型标准体系及能力架构研究报告24作为输入,而不是仅仅加在输入层,可以更多可学习的参数,同时也保证参数高效,通过加入到更深层结构中的 Prompt 能给模型预测带来更直接的影响。P-tuning v2 有更多的可优化的特定任务参数,以允许更多的每个任务容量,而它仍比原预训练语言模型会小得多。LORA 精调方法,通过低秩分解来模拟参数的改变量,从而以极小的参数量来实现大模型的间接训练。该方法通过在权重矩阵中增加低秩适配层,降维和升维矩阵,模拟特征秩。在任务训练时,固定模型的其他参数,只优化两个矩阵的权重参数,更新低秩适应层,这允许模型在不改变其一般知识的情况下有效地学习特定于任务的信息。图 14 P-tuning 和 P-tuning v2 精调算法原理图 15 LoRA 精调算法原理2.模型评估行业大模型标准体系及能力架构研究报告25模型评估,在精调生成对应任务的大模型后,对模型进行评估,以判断模型是否满足应用要求。通常包括功能和性能两方面评估。根据应用场景和任务类型的不同,大模型的评估维度会有所不同。对于 NLP 类型大模型而言,其评估维度可以包括功能覆盖度、性能优越度。其中功能评估可以评估其是否涵盖词法分析、句法分析、语义分析、语义消岐、机器翻译、文本分类、文本生成、内容推荐、阅读理解、摘要生成、文本纠错等功能。性能评估包括对应任务的准确率、召回率、F1 值等,必要时需要引入人工进行主观判断,以保证评估的完整性。对于 CV 类大模型而言,其评估维度可包括功能覆盖度、性能优越度。其中功能评估包括是否涵盖字符识别、图像识别、动作识别、图像分类、内容推荐、目标检测、语义分割、实例分割、视觉检索等功能。性能评估可以通过准确率、召回率、F1 值、命中率、平均交并比、检测准确率、分类准确率等维度进行评价,必要时需要引入人工进行主观判断。对于多模态类大模型而言,其评估的维度可以包括功能覆盖度、性能优越度。其中功能评估可以包括是否涵盖图文检索、图文生成、视频文本相关度匹配等功能,性能评估可以通过命中率、准确度、匹配度等维度进行评价,可以引入人工进行主观判断。在模型评估过程中,可以引入更多的测试数据集,保证数据集的全面性、完整性、多样性,以保证模型评估的效果准确,更好的优化模型。行业大模型标准体系及能力架构研究报告263.模型重训优化模型重训优化,根据模型评估的情况,通常需要对模型进行多轮迭代训练优化。可以应用强化学习方式进行模型的重训,通过人工标注答案满意度,选出最符合人类思考交流习惯的答案,循环更新生成大模型。行业用户可以将重训得到的模型在模型训练平台上提交至模型仓库,并进行模型的验证测试,验证后可以正式发布并应用。模型重训可以分为离线重训和在线重训。对于实时性要求较高的某些场景,可以选择在线重训。对于安全性要求较高的场景以及当对模型进行较大更替时可选择离线重训。模型重训可以减少由于数据、内容漂移等因素对模型性能的影响,也可以根据模型应用进程对模型进行即时调优。模型重训优化可以根据模型评估的结果触发,也可以在模型运营阶段根据监控指标触发,即当监控指标低于阈值时,自动触发请求或以人工方式,触发模型重训迭代。4.模型联调部署模型联调部署,包括推理服务部署、服务配置、应用服务联调等阶段。模型联调部署前,行业用户可以对预训练大模型及精调后的大模型做加密,训练框架同样可以做加密封装。在模型部署过程中,需要先将模型、配置、代码等进行封装,随后将封装好的模型服务部署至目标环境并配置对应的 API,以保证后续应用服务的联调,保证模型服务与实际业务系统的对接。行业大模型标准体系及能力架构研究报告27模型部署需要支持更新策略,以保证新版本的模型服务可以持续部署更新于目标环境。支持对已部署的模型服务配置相应的管理策略,以保证模型的正常运行,并不断驱动模型的优化。5.模型应用运营模型应用运营,在生产环境中为已上线的模型服务提供监控、管理、运营维护等能力。模型的应用运营应覆盖大模型构建的全生命周期,全面记录模型运行状态。应支持模型的注册、纳管、风险管理;支持模型版本控制、更新、回滚;支持自动化通知告警,智能化分析和自动化处置。在模型应用运营环节,可以通过构建仓库的管理方式,通过构建元数据仓库、特征仓库、模型仓库、代码仓库、参数仓库等,提供访问、复用、追溯等能力,实现对模型资产的有序管理。行业大模型标准体系及能力架构研究报告28第三章第三章 大模型标准体系先行,全面建立能力指标体系大模型标准体系先行,全面建立能力指标体系随着大模型的快速兴起,业界也意识到,创新技术的发展离不开标准化的推动,大模型标准体系的建设和完善,对于推动大模型应用落地,加速大模型与行业应用融合,促进产业向标准化、合规化、规模化方向发展,具有重要意义。中国信息通信研究院聚焦基础大模型在实际需求中的“建、用、管”等关键环节,从多个方向持续构建和完善大模型的标准体系,聚焦模型化、能力化、工程化、产业化,围绕模型开发、模型能力、模型运营、模型应用、安全可信五大方面形成标准指标体系,全面评估大模型的综合水平。图 16 行业大模型标准体系(一)聚焦工程化应用,五大维度评估行业大模型基础能力1.模型开发标准模型开发标准可解决数据开发过程中流程不清晰、权责不明确等问题。模型开发,从数据构建开始、进行模型训练、模型管理、模型部署四步的全流程体系。模型开发标准可用于指导第三方测评机构对大规模预训练模型的模型开发能力的评估、验收等工作。模型开发标准内容可围绕数据管理、模型训练、模型管理、模型行业大模型标准体系及能力架构研究报告29部署、开发流程一体化等能力域展开,其中数据构建部分可包括数据获取、数据处理、数据管理等能力子域;模型训练部分可包括训练方式、可视化、增量学习、资源优化与调度、分布式训练等能力子域;模型管理可包括模型存储、版本回溯、日志管理等能力子域;模型部署可包括模型微调、模型转换、模型裁剪、模型蒸馏、模型量化等能力子域。根据各项能力子域可进行具体细分至能力项,如模型微调可细分为微调方法丰富度、微调性能差等能力项。其中每个单一能力项可由多项客观指标进行综合评价。图 17 模型开发标准基本框架图2.模型能力标准模型能力标准可解决如何评估模型功性能丰富度、优越度等问题。语言理解能力、生成能力、逻辑推理能力等都为模型能力,为了更好评价不同模型在语义、视觉、语音、多模态等领域能力,可针对模型能力建立功性能评价指标体系,指导评估机构采用主观和客观指标全面评测基础大模型、领域大模型、产业大模型的功能及性能。行业大模型标准体系及能力架构研究报告30模型能力标准评价指标可围绕功能丰富度、性能优越度、服务成熟度三个维度全面评价大模型能力。其中,功能及性能的评测范围可包含智能语义、智能视觉、智能语音、跨模态等能力域,服务成熟度可包含服务稳定性、服务鲁棒性、服务开放程度、服务并发性等能力域。各项能力域可进行具体细分至能力项,如智能语义可细分为是否覆盖词法分析、句法分析、语义消岐、机器翻译、对话系统等能力项。每个能力项可由多个主/客观指标进行综合评价。图 18 模型能力标准基本框架图3.模型应用标准模型应用标准可解决模型应用过程中工程化路径不清晰、应用灵活度、成熟度无法定性定量评估等问题。模型应用,包括大模型开发、二次/多次开发、大模型应用等环节。大模型应用基于系统集成或 API等赋能模式,结合精标注的场景及任务数据,最终实现大模型在工业质检、电力巡检等场景,语言、视觉、跨模态等任务中的落地应用。行业大模型标准体系及能力架构研究报告31目前,大模型工程化仍处于探索期,行业在工程化路径方面达成初步共识,但是在产品形态、运营服务等方面仍存在部分问题。为解决上述问题,可建立模型应用标准指标体系,用于指导第三方测评机构对大规模预训练模型应用能力的评估、验收等工作。标准指标体系可主要规定大规模预训练模型在应用阶段的能力要求,可包括工程路径、运营管理、应用与服务成熟度等核心环节。其中,工程路径可围绕大模型的落地方式及产品形态展开;运营能力可围绕应用平台的管理展开,可包括知识库管理、平台运维管理、数据运维管理等;管理能力可围绕大模型落地的工具链完备度、工具的易用性、可靠性等内容展开;应用成熟度可围绕效果优越性、服务可靠性、服务配套性展开;服务能力可围绕安全性、可靠性、计量准确度等指标进行展开。其中应用成熟度可细分为性能提升度、业务优化度、响应实时性、计量准确性等评测指标。图 19 模型应用流程框图4.模型运营标准行业大模型标准体系及能力架构研究报告32模型运营标准可解决模型运营阶段工具平台能力无法评估,用户无法选型等问题。大模型在工程化落地和运营阶段,模型运营主要包括数据工程、模型调优、模型交付、服务运营、平台能力等核心部分。为推动模型的复用性,减少重复劳动,提高开发效率,同时为企业落地选型提供参考,可针对模型运营开展标准指标体系的构建,该指标体系可用于指导产品方对标完善其大模型平台产品能力,也可为应用方提供技术选型的参考。模型运营标准指标体系可围绕大模型的数据、开发、交付、运营、系统运维、生态扩展等全生命周期进行统一标注制定。具体包括对海量多模态非结构化数据的处理及数据生成能力、大模型在特定领域的调优算法支持度及分布式并行计算的支持度、大模型压缩及转化以适应边端推理的部署及管理能力、服务发布及编排运营能力、资源调度与插件生态,确保大模型从生产到落地应用的全过程稳步运行。图 20 模型运营5.安全可信标准安全可信标准可解决大模型研发应用过程中安全可信度评估问题。大模型在研发及应用过程中安全可信的能力要求,包括基础设施安全可信、数据安全可信、算法模型安全可信和应用安全可信四大维度。为进一步解决大模型在落地过程中的可信问题,保障大模型安全行业大模型标准体系及能力架构研究报告33可用,需建立大模型全流程的安全可信评价体系,评估大模型各个环节的可信能力。该标准体系可用于指导第三方测评机构评估大模型数据、模型、应用的安全性,评估结果、过程、机制和规则的可信性,以及评估大模型生态链的自主可控程度。安全可信标准体系可规定大模型从开发到部署应用全周期涉及到的可信能力要求,可主要分为技术可控与业务可用两大维度。其中,技术可控部分可重点围绕数据可信、算法模型可信和基础设施可信三个能力项展开,数据可信可主要针对训练及微调的数据集潜在的合规问题展开;算法模型可信可围绕算法设计、算法偏见等要素展开;基础设施可信可围绕开发套件、底层算法库、运算芯片、云平台等学习框架和算力设施的稳定性展开。业务可用部分可围绕应用可控、业务设计可信两个维度展开,应用可控可围绕权限管理、运维管理等保障措施展开,业务设计可信可围绕模型部署前的规划设计合理性及运维层面的可控性展开。(二)围绕特定行业和场景需求,评估行业大模型服务能力1.金融大模型标准金融大模型标准可有效评估金融大模型的能力,促进金融行业智能化转型。金融大模型在银行、证券、保险等金融细分领域具有重要应用前景,在智能投研、智能投顾、智能风控、智能营销、智能客服等众多场景中提供助力,促进金融机构数智化水平提升。然而,金融大模型在应用过程中仍面临着诸多挑战。在数据安全方面,由于金融行业对身份信息、金融资产、交易记录、信用历史等数据流动的合规行业大模型标准体系及能力架构研究报告34要求较高,导致金融大模型在数据安全和隐私保护方面将面临更高的要求。在时效性方面,由于金融风险的效用具有期限,导致金融大模型对实时数据获取和处理能力提出了更高要求。为了更好推动金融大模型高质量发展,有必要探索金融大模型标准和评测指标的构建。金融大模型标准可用于指导第三方测评机构对金融大模型能力的评估、验收等工作。金融大模型能力评估标准可以围绕应用场景、能力指标、应用成熟三个部分开展。其中,应用场景可重点考察营销、风控、投研、投顾、文档处理、知识管理、客服等通用场景的覆盖情况,以及银行、保险、证券、基金、资管等专用业务场景的覆盖情况,具体能力项可可分为客户满意度、客户信用评估准确率、风险预警准确率、表单识别准确率、证件识别准确率等。能力指标可以重点考察不同模态数据的覆盖情况,以及任务具体指标、业务整体效果等方面的效果优越性,具体能力项可分为实体识别、关系抽取、事件抽取、情感分析、文本生成、语音合成、语音识别、图片分类、图像真实性鉴定等。应用成熟可重点考察数据合规、模型可控、服务可靠等方面,具体能力项可分为数据加密性、模型的攻击防范性及输出准确性、服务的可扩展性、可维护性、兼容性等。2.文旅大模型标准文旅大模型标准可有效评估文旅大模型的能力,助力文旅行业发展,提升游客体验。文旅大模型在文化和旅游方面均有重要的应用场景,特别在景区导游、文化推广、旅游规划、虚拟旅游、旅游服务等行业大模型标准体系及能力架构研究报告35细分应用方面,可以优化提升应用服务水平,推进数字化升级进程。在景区导游应用中,可利用文旅大模型对景区的历史、人文进行全方位的介绍,并根据游客的偏好提供智能导览服务。在文化推广应用中,通过对各类文化元素的分析解读,宣传传承文化元素,增进用户交互和体验。在旅游规划应用中,通过分析景区数据,协助文化旅游规划部门,优化景区的管理措施,支持为游客提供专属化的旅游路线。在虚拟旅游中,通过模型可以创建虚拟旅游环境,丰富游览体验,支持游客在虚拟空间中畅游名胜古迹,游览各个景点。在旅游服务应用中,可以基于模型为旅游平台、酒店、餐厅、商场等旅游服务,提供智能推荐,路线定制、咨询问答等,进一步提升游客体验。为了更好的推动文旅大模型高质量发展,提升用户体验,并完善应用体系,有必要探索文旅大模型标准和评测指标的构建。文旅大模型标准适用于指导第三方测评机构对文旅大模型能力的评估、验收等工作。文旅大模型能力评估标准可以围绕应用场景、能力指标、应用成熟三个部分开展。其中,应用场景可重点考察旅游行程定制、旅游文案、讲解互动等应用场景的覆盖情况,以及文旅规划、客流预测、文化研习等文旅专用业务场景的覆盖情况;能力指标可以重点考察数据覆盖、精准推荐、语义理解、实时交互、语义生成、数据分析等相应能力,以及任务具体指标等方面的效果;应用成熟可重点考察数据隐私合规、模型持续更新能力、安全性等方面,评估模型服务的可靠性。3.政务大模型标准行业大模型标准体系及能力架构研究报告36政务大模型标准可有效评估政务大模型的能力,促进智慧政务发展,提升政府服务能力。大模型的出现为智慧政务注入了新一轮的发展动能,其更强大的理解与推理能力、更自然的交互与协作能力、更精准的识别与预测能力等,都将进一步拓宽智慧政务的服务面,持续提升政务服务的效能与温度。政务大模型核心能力对于提高行政效率、加强治理能力、优化资源配置、完善监督机制、促进经济发展等方面均具有广泛且深远的意义。然而,政务大模型仍存在多方面的挑战:一是需要确保模型输出合法合规合理;二是政务大模型应用应避免偏见与不公。为了更好推动政务大模型高质量发展,有必要探索政务大模型标准和评测指标的构建。政务大模型标准适用于指导第三方测评机构对政务大模型能力的评估、验收等工作。政务大模型能力评估标准可以围绕能力指标、应用场景两个部分开展。能力指标可涉及技术能力、保障能力和应用成效,具体可包括生成能力、交互能力、推理能力、加密能力等,具体评测能力项可包括政务咨询准确率、响应率、公共服务优化性、政务数据分析效果、互动满意度等。应用场景,可涉及通用和专用两大类场景,可包含问询、检索、纳管、党建、监督、行政等场景丰富度,具体评测能力项可包括是否覆盖政策文件生成、政策文件的理解与解读等能力。标准可围绕上述指标体系构建体系化评估方法,包含每个评估项的设置目的、评估方法、分级标准等。4.传媒大模型标准行业大模型标准体系及能力架构研究报告37传媒大模型标准可有效评估传媒大模型的能力,促进传媒行业智能化转型。传媒大模型在辅助写作、内容生成、内容审核、内容推荐、数字人播报等传媒行业场景已经开始应用,渗透至采编播发等各个环节,成为推动媒体融合发展的重要力量。传媒大模型的发展给媒体行业带来了全新的发展机遇,同时也带来了一系列的挑战。首先,传媒大模型目前生成的内容存在不确定性;其次,传媒大模型的生产作品可能涉及侵犯他人的著作权或其他相关权益的风险。为了更好推动传媒大模型高质量发展,有必要探索传媒大模型标准和评测指标的构建。传媒大模型标准适用于指导第三方测评机构对传媒大模型能力的评估、验收等工作。传媒大模型能力评估标准可以围绕应用场景、能力指标、应用成熟三个部分开展。应用场景可重点考察模型对新闻、广告、影视、虚拟人等领域的支持情况,以及对辅助写作、舆情管理等场景的支持情况,具体指标可包括是否覆盖新闻报道、广告营销、影视创作、文学创作等能力项。能力指标可重点考察语言、语音、视觉、跨模态等任务的支持度,以及场景应用、任务性能等效果的优越性,具体指标可包括内容制作匹配度、媒资检索准确率、审核准确率、广告精准度等。应用成熟度部分可重点考察内容真实性、服务稳定性、版权保护等方面。5.电信大模型标准电信大模型标准可有效评估电信大模型的能力,促进电信行业数字化转型。电信大模型在语音客服、套餐推荐、电软开发、网络运维、行业大模型标准体系及能力架构研究报告38故障定位等领域中的具有重要应用前景。电信大模型要充分满足电信行业场景需求,还面临诸多挑战。在技术层面,电信大模型的构造、集成、运维和运营等缺乏统一的流程;在安全层面,电信数据容易包含敏感信息,数据和模型的安全性需要重点关注。为了更好推动电信大模型高质量发展,有必要探索电信大模型标准和评测指标的构建。电信大模型标准适用于指导第三方测评机构对电信大模型能力的评估、验收等工作。电信大模型能力评估标准可以围绕应用场景、能力指标、应用成熟三个部分开展。其中,应用场景可重点考察客服、营销、政务知识管理等通用场景的覆盖情况,以及电信软件开发、通信网络优化、通信网络运维等专用业务场景的覆盖情况,具体指标可包括是否覆盖意图识别、对话回复生成、异常检测、日志挖掘、故障定位、故障预测等能力。能力指标可重点考察文本、语音、图像、时间序列等多种模态的覆盖情况,以及任务具体指标、业务整体效果等方面的效果优越性,具体指标可包括运维效率提升率、客服服务满意度、客户营销精确度等。应用成熟部分可重点考察服务运行时长、生成内容可靠等方面的服务可靠度,数据安全、模型安全、模型自主等方面的服务可信度等。6.教育大模型标准教育大模型标准可有效评估教育大模型的能力,促进教育行业朝向个性化、多元化发展。教育大模型有望满足更具个性、更加多元、更高质量的教育需求,在问题生成、智慧教学等领域具有重要的应用行业大模型标准体系及能力架构研究报告39前景。然而,教育大模型得到快速应用发展的同时,其在准确性、隐私保护等方面的能力仍显不足。为了更好推动教育大模型高质量发展,有必要探索教育大模型标准和评测指标的构建。教育大模型标准适用于指导第三方测评机构对教育大模型能力的评估、验收等工作。教育大模型能力评估标准可以围绕应用场景、能力指标、应用成熟三个部分开展。其中应用场景可包括对数学、语文、英语、物理等学科的支持度和对知识问答、教学辅助、学习辅导等场景的支持度,具体指标可包括是否覆盖智能阅卷、课堂助手、虚拟教师、自动生成课程大纲、教学方案、个人学习计划等能力项。能力指标可从记忆、分析、创作、总结等能力维度对教育大模型的效果进行评估,具体指标可包括课程设计合理性、学习推荐匹配度、测评准确性等;应用成熟可包括服务多样和服务稳定,服务多样可考察教育大模型服务对象、服务方式、交互形式等,服务稳定可考察教育大模型的知识准确性、学生隐私保护、持续学习性等方面。7.工业大模型标准工业大模型标准可有效评估工业大模型的能力,促进工业领域实现智能化转型。工业大模型将有望在研发设计、生产制造、管理服务等领域,进一步增强工业设计效率、工业机器人感知和执行力,为工业智能化制造带来强劲增长动能和广阔应用前景。但由于工业领域环境易变化、应用复杂度高、数据多模态等特征,工业大模型在落地进程中仍显不足,因此需构建一套围绕多模型协同、自适应、隐私和安行业大模型标准体系及能力架构研究报告40全保护等方面的标准能力体系,用于引导工业大模型良好发展,推动工业大模型产业化进程。工业大模型能力评估标准可以围绕应用场景、能力指标、应用成熟三个部分开展。其中,应用场景部分可重点考察系统优化、推荐和预测等通用场景的覆盖度,冶金、煤炭、石油等专用业务场景的覆盖度,具体指标可包括是否覆盖产品质量检测、工况检测、生产计划排程、安全隐患识别、机器维护预测等能力项。能力指标部分可重点考察语言、语音、视觉等任务的覆盖度,以及任务指标、业务整体等方面的效果优越性。具体评测指标可包括质量检测准确率、研发设计匹配度等。应用成熟部分可重点考察数据加密、访问控制等方面的系统安全性,可追溯性、攻击防范性等方面的服务稳定性。8.汽车大模型标准汽车大模型标准可有效评估汽车大模型的能力,促进汽车行业高质量发展。汽车大模型可赋能汽车行业的多种应用场景,目前汽车大模型已应用于智能座舱、智能驾驶等场景,取得较好成效,但其在部署、推理、能耗等方面仍存在明显短板。为了更好推动汽车大模型高质量发展,有必要探索汽车大模型标准和评测指标的构建。汽车大模型标准可用于指导第三方测评机构对政务大模型能力的评估、验收等工作。汽车大模型能力评估标准可以围绕应用场景、能力指标、应用成熟三个部分开展。其中应用场景可主要考察对各类场景的支持度,如汽车的研发场景、使用场景、生产场景等,具体指标可包括是否覆盖行业大模型标准体系及能力架构研究报告41车载语音助手、泊车辅助、自动辅助变道、领域知识库、仿真实验等能力项;能力指标可主要考察汽车行业大模型的语音能力、视觉能力、决策能力等,具体指标可包括智能决策准确率、知识库覆盖度等;应用成熟可主要考察汽车行业大模型的应用成熟情况,可包括算力配置、部署推理、数据管理、安全合规和系统生态等。9.家居大模型标准家居大模型标准可有效评估家居大模型的能力,促进智能家居行业健康可持续发展。智能家居的产品形态不断创新,家居大模型将在智能安防、智能家电、智能影音、智能传感、智能健康等场景具有重要应用前景。智能家居行业蓬勃发展的同时,用户也对数据加密、权限管理、定制化服务等能力提出了较高要求。为规范行业发展,推动大模型在家居领域的能效释放,助力用户选型,可围绕家居大模型在智能家居中的应用场景、实现效果、服务稳定等方面建立标准指标评估体系,全面评估家居大模型在智能影音、智能传感、智能网络、智能照明等场景下的应用效果。其中,应用场景中的通用场景可包括智能空间和智能家居等,专业场景可包括智能安防、智能影音、智能传感等,具体指标可包括大模型是否覆盖情感分析、语义理解等能力项。实现效果可围绕任务效果和整体效果两个部分展开,任务效果可包括语音任务、视觉任务、跨模态任务等,效果优越性可包括场景应用效果、任务性能效果等;服务稳定可围绕安全隐私和系统成熟两个能力子域展开,安全隐私性可包括数据加密、权限管理、日志管理等,系统成熟可包括部署方式、开放程度、定制行业大模型标准体系及能力架构研究报告42化服务等。行业大模型标准体系及能力架构研究报告43第四章第四章 行业大模型应用行业大模型应用“百花齐放百花齐放”,价值不断释放,价值不断释放通用大模型的价值巨大,但无数的企业管理者们也在思考如何才能利用好大模型的力量。相比于通但不精的通用大模型,更专注、更专业的行业大模型在金融、文旅、传媒等多个产业场景具有广泛的应用和商业创新价值。(一)文旅典型案例文旅大模型在文化和旅游方面均会有重要的应用场景,特别在景区导游、文化推广、旅游规划、旅游服务等细分应用方面,可以优化提升应用服务水平,推进数字化升级进程。在景区游览场景中(线下实景和线上沉浸式空间),对景区的景点信息、景点特色、景点的历史故事等进行全方位的介绍,并根据游客的偏好提供智能导游导览服务,提供旅游助手的服务能力。在旅游路线规划场景中,通过分析景区数据,游客画像数据,协助景区、旅游平台、酒店、餐厅、商场等旅游服务主体为游客提供定制化、专属化的旅游路线,充分匹配游客的个性需求和景区吃住行游购娱的旅游资源,构建旅游管家的服务能力。对比以前在平台上各种点按、搜索、筛选,可以以更自然的对话交互模式解决出行需求。在文化宣传推广场景中,尤其是在文博场景中,通过对各类文化历史知识的分析解读,为广大消费者提供历史文化解读,历史文化故事讲解,历史文化知识梳理等功能,帮助用户以更便捷和高效的形式学习、了解、传播文化,构建历史文化专家的服务能力。除大模型自身能力以外,还需要考虑大模型的开放生态能力,能行业大模型标准体系及能力架构研究报告44否连接动态数据、能否连接生态内其他产品的能力、能否连接景区侧的已有系统的数据等,比如结合插件能力连接包括 LBS 大数据、天气、AIGC 等在内的产业生态能力,为用户提供包括内容讲解、交通、餐饮、住宿、购物等多种人性化服务。基于大模型自身强大的内容理解、多轮对话、内容生成能力,再加上连接器所串联的其他数据,才能够提供更好的服务。文旅案例一:在文旅领域,一家线上旅游公司,其传统智能客服需要人工进行对话配置,知识维护量大、耗时长,且涉及订单等复杂业务场景,在无配置的情况下,无法通过机器人闭环解决问题。精调后的客户专属模型,无需配置对话流程,即可实现端到端解决业务问题。提升任务完成率,降低整体成本。图 21 文旅案例 1文旅案例二:行业客户是一家旅游目的地文旅集团,当前景区文旅智能客服系行业大模型标准体系及能力架构研究报告45统,面临如下问题:需要工作人员针对景区运营和历史文化材料进行大量的整理工作,耗时耗力;客户提问需要精准匹配问答标题才能得到想要的预设好的回复信息;整体回复的准确率不高(当前系统只能达到 80%);无法提供个性化的,相对拟人化的问答交互,回答的答案都是预置好的结果信息。现网系统介入文旅大模型及模型调优之后,智能客户的问答效果得到了显著提升:完成相关数据的整理和清洗工作,刷选出了模型训练可用的数据集。针对文档数据进行了调试,对文化数据进行了多轮参数调整及测试。基于现有测试集和数据集,通过数月的精调,文档数据集可达到 90%的准确率,QA 问答对数据集可达 95%准确率。行业大模型标准体系及能力架构研究报告46图 22 文旅案例 2(二二)金融典型案例金融典型案例金融案例一:在金融领域,传统的 OCR 深度学习模型不具备阅读理解和推理能力、模型指标上限低,不同场景下模型能力无法复制,定制成本高。行业内某企业联合一家头部银行,基于 OCR 大模型,上线了 4 类票据的自动化识别流程,信息录入准确率提升 50。图 23 文旅案例 3金融案例二:行业大模型标准体系及能力架构研究报告47用户是一家头部的消费金融公司,近年来随着用户规模增大,客户的获客成本逐渐增加。在贷前、贷中等 7 个关键业务环节都需精细化运营,每半年进行一轮模型迭代。过去该公司要投入大量的人力在风控建模。某企业金融风控大模型基于 maas 的服务模式,给该企业提供高性能的建模服务,双方联合共建 10 个定制化的风控模型,应用在反欺诈、信用初筛等多个业务场景;同时实现匹配专家级建模精度,风控模型迭代效率提升 8 倍。图 24 传统建模与金融风控大模型 MaaS 建模效果对比(三三)传媒典型案例传媒典型案例在传媒领域,智能摘要大模型可以从新闻的多种来源渠道的采访稿,包括电视媒体渠道、新媒体等,自动化生成新闻的标题、关键词、导语(摘要)、正文等。该方案可提高新闻成稿的效率,用于辅助人工。新闻生成摘要需求,可指定生成的多个可用标题;可以指定总结34 个关键词;指定字数的内容摘要,正文陈述新闻内容。智能摘要大模型的评测维度,可以包括主观评测和客观评测。主观评测覆盖流畅性、主题相关性、上下文一致性、结构完整性等方面;客观评测行业大模型标准体系及能力架构研究报告48可以 ROUGE 值进行评测。该大模型建设方案,可以在千亿参数规模的通用大语言模型的基础上,进行模型蒸馏,得到百亿级参数模型。通过收集的传媒领域数据,进行预训练训练,数据可为几 G 到几百 G 不等,从而获得传媒行业大模型。最后,再集合摘要场景经过精调得到对应任务场景大模型,以满足模型的实际应用需要。行业大模型标准体系及能力架构研究报告49第五章第五章 行业大模型行业大模型“千行百业千行百业”落地落地,驱动驱动 AI 原生应用发原生应用发展展伴随着行业大模型的蓬勃发展,金融大模型、文旅大模型、传媒大模型、医疗大模型、电信大模型、法律大模型、教育大模型、政务大模型等如雨后春笋般出现。更为重要的是,行业大模型为软件架构的演进革新注入新的活力,有望重塑全球数字化产业。随着 MaaS 等理念的提出,IT 技术栈将由原来的芯片、操作系统和应用三层架构,转变为芯片、框架、模型、应用四层架构。近期,国内企业发布 AI原生(AI Native)向量数据库 Tencent Cloud VectorDB,从接入层、计算层、到存储层提供全生命周期 AI 化的向量数据库,被广泛应用于大模型的训练、推理和知识库补充等场景,效果优越。图 25 AI 原生向量数据库行业大模型对 AI 原生应用发展的影响,总体表现为以下几个方面:AI 原生应用要求 AI 必须是系统、应用和功能的基础,而行业大行业大模型标准体系及能力架构研究报告50模型正提供了构建基础能力的方法论和落地措施。应用开发者或行业用户,可以利用 MaaS 等模型构建范式,经过数据管理、模型精调、模型部署、应用适配等环节,将行业大模型嵌入至软件架构体系中,利用 AI 原生思维重构所有的软件产品、服务和工作流程,开发出更多以大模型为核心的 AI“原生”类应用。除了在软硬件整体架构上的革新,行业大模型还有望推动大模型智能体(Agent)的发展。大模型 Agent 通常是以大模型作为大脑,面向通用或专属复杂问题,具有任务规划能力、长短期记忆力、工具使用能力,能够自动化、全流程完成任务的智能体。通常可以利用LangChain、AuotGPT、HuggingGPT 等工具构建大模型 Agent。需要注意,具有处理复杂任务的大模型 Agent 通常不是使用单一大模型,而是个由多模型和工具链组成的复杂系统,其中包含基础大模型、行业大模型、小模型等,并通过流水线等方式进行配置。而具有强大领域信息处理能力的行业大模型无疑可以在大模型 Agent 发挥重要作用。