《华为云:2023预训练大模型白皮书(58页).pdf》由会员分享,可在线阅读,更多相关《华为云:2023预训练大模型白皮书(58页).pdf(58页珍藏版)》请在三个皮匠报告上搜索。
1、预训练大模型白皮书01PREFACE高 文中国工程院院士 鹏城实验室主任北京大学博雅讲席教授自 1956 年人工智能在达特茅斯会议上被提出,人工智能领域的学者一直致力于提升算法的通用性能力,即希望人工智能方法能够像人类一样,快速灵活地适应各种实际应用问题,提升人类社会的生产效率。然而,在人工智能发展的前半个世纪,学者们始终没有找到合适的方法论,而包括符号计算、专家系统等精心设计的模型,都只能用于少数限定场景,无法拓展到以计算机视觉、自然语言处理为代表的复杂系统中去。21 世纪初,随着硬件性能的演进和大数据的兴起,情况发生了根本性的变化。2010 年开始,深度学习以席卷之势,占领了人工智能的大部
2、分领域,在许多公测数据上取得了前所未有的精确度。深度学习的本质是统计学习,即通过在大量数据上拟合复杂函数,使得该函数具有泛化能力。时至今日,这种范式已经取得了巨大的成功:一个深层神经网络,只要在不同数据上训练或者微调,就能够应用于不同的任务,而这件事在 20 年前是几乎无法想象的。然而,基于深度学习的人工智能方法,依然存在明显的缺陷。对大数据和大算力的强烈依赖、对参数调节的敏感性,都在无形之中抬高了人工智能算法的使用门槛。为此,我们迫切地需要一种新思路,打通通用数据和领域知识,并且大幅度地降低人工智能研发的人力和算力成本。为此,业界提出了预训练大模型的范式,通过收02集海量训练数据,并通过一种
3、称为预训练的过程,将其中蕴含的知识存储于大规模神经网络,即大模型之中。如此,这个预训练大模型就具有了很强的泛化能力,并且可以通过简单的微调操作,将其能力应用到下游任务中去。在过去五年间,预训练大模型在自然语言处理、计算机视觉等领域取得了长足的发展,模型规模屡创新高,模型泛化性也不断提升。而我也欣喜地看到,预训练大模型已经在华为取得商业应用,成功落地在工业质检、智慧交通、时尚设计等多个产业中。人工智能的前路依然漫长。预训练大模型正在逼近统计学习方法的极限,但是它也有无法解决的课题,包括模型的可解释性和安全性等难题。同时,大模型的功耗远远超过人类大脑,也意味着这种方式也许不是最优的解决方案。总的来
4、说,当前的人工智能正处在历史的十字路口,业界需要在预训练大模型的基础上做出抉择,走出未来的发展道路来。在上述背景下,华为公司发布预训练大模型白皮书,具有重要的意义。我相信,华为在大模型的研发和落地上的投入,最终会给学术界和产业界带来启发,成为扩展人工智能能力边界和推动人工智能产业升级的强大力量。03PREFACE张平安华为高级副总裁华为云 CEO当今世界正面临百年未有之大变局。以人工智能、大数据、物联网、云计算和 5G为代表的数字化技术,正在深刻地驱动产业变革,重塑全球的技术和产业格局。其中,人工智能发展的经济和战略意义,已经取得了包括中国在内的全球许多国家的共识。2021 年,习总书记在主持
5、中央政治局第三十四次集体学习时强调,支持人工智能和实体经济深度融合,建设数字中国、智慧社会,推进数字产业化和产业数字化,打造具有国际竞争力的数字产业集群。2022年8月,科技部等六部门联合印发了 关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见,系统指导各地方和各主体加快人工智能场景应用,推动经济高质量发展。发展人工智能已经是世界高科技的方向标之一,也成为了全球各个强国推进前沿研发的纲领性原则和激烈竞争场。作为当前人工智能领域最前沿的课题和最有力的武器,预训练大模型无疑是这场竞争中的焦点之一。以自然语言处理领域为例,预训练大模型的参数规模已经从 2018 年的亿级来到了 202
6、2 年万亿级,几乎每年都能看到数量级上的提升。预训练大模型是一项庞大的系统性工程,不仅涉及到先进算法的研发,还需要硬件、框架、开发工具的支持。华为公司构建了从昇腾+鲲鹏芯片到 AI 开发框架04MindSpore 和 AI 开发平台 ModelArts 的全栈式开发能力,并基于这些能力提出了盘古预训练大模型。一年多以来,盘古大模型持续演进,在计算机视觉、自然语言处理、科学计算等领域为业界贡献了先进的算法和解决方案。截至 2022 年,盘古大模型已经被应用于十余个行业的百余个场景,为研发人员提供了新的开发方案,也取得了可观的商业价值。实践表明,盘古预训练大模型能有效减少专家的干预和人为调优的消耗
7、,降低人工智能开发的门槛和成本,这对践行普惠 AI,实现人工智能的泛化和规模复制,具有非常巨大的意义。在整合大模型研发和落地经验后,华为团队撰写了预训练大模型白皮书,旨在将自身对大模型的洞察毫无保留地分享给业界,以期推进以大模型为核心的人工智能产业的健康发展。前路是艰辛的,前途也是光明的。人工智能经历六十余年的沉浮,始终没有放弃“减少重复劳动”和“扩展人类知识边界”这两大根本目标。只要不忘初心、牢记使命,技术研究和行业落地就能更紧密地结合起来,在发展技术的同时,为人类社会创造更多的福祉。05FOREWORD高新波教授 重庆邮电大学校长 国家杰出青年科学基金获得者 教育部长江学者特聘教授古有盘古
8、开天地,今有华为大模型。为解决人工智能算法落地的碎片化困境,预训练大模型应运而生。自华为云团队发布盘古预训练大模型以来,形成了全栈式 AI 解决方案,在很多领域获得了成功的应用。相信预训练大模型白皮书将会引领大模型健康发展,为通用人工智能探索一条可能的新路径。庄越挺浙江大学计算机学院教授国家杰出青年基金获得者 教育部长江学者特聘教授 教育部人工智能协同创新中心主任预训练大模型是当前新一代人工智能领域最前沿的研究方向,正成为世界各科技强国竞争的焦点。预训练大模型率先在自然语言处理领域取得突破性的进展,并迅速拓展到涉及图像、视频、图形、语言等跨媒体推理的各类任务和大量的商业应用之中,展现了巨大的发
9、展潜力。华为云发布预训练大模型白皮书,正逢其时,必定对 AI 行业产生有价值的指导作用,也体现了作为一个科技大公司的担当精神。我相信,预训练大模型可望成为跨媒体智能的重要技术手段。张民教授 哈尔滨工业大学(深圳)特聘校长助理计算与智能研究院院长 国家杰出青年基金获得者预训练大模型被称为人工智能应用的基础设施,它具有强大的知识建模、知识获取和应用泛化能力。华为云预训练大模型白皮书以华为云盘古大模型家族为代表,全面介绍了华为在大模型方面的系列创新性工作,包括视觉、语音语义、多模态、科学计算、图网络大模型,以及产业落地经验和对未来发展的展望。这本白皮书会给学术界和产业界提供重要的启发和借鉴。06李厚
10、强教授 中国科学技术大学信息学院副院长 IEEE Fellow国家杰出青年科学基金获得者 教育部长江学者特聘教授预训练大模型是人工智能领域的研究热点和前沿技术,近年来在自然语言处理、计算机视觉等方向取得了巨大成功。华为云团队撰写的预训练大模型白皮书,将其在大模型研发和落地中的经验总结出来,分享给学术界和工业界,对推动预训练大模型理论、方法、技术、应用的发展具有重要意义。熊红凯上海交通大学特聘教授国家杰出青年基金获得者 教育部长江学者特聘教授爱因斯坦说:这个宇宙最让人难以理解的地方,就是它竟然是可以被理解的。斗转星移,大数据和人工智能在 21 世纪,为我们开启了一个理解人类自身认知的帷幕,逐步融
11、入了我们的日常生活;也正是在这样一种时代背景下,旨在建立一种通用智能的“大模型”应运而生。它寄望于“预训练大模型+下游任务微调”的方式,将知识存储到大量参数中,扩展模型的泛化能力。很大意义上,对大模型的落地部署,能够超越产业和国家的界限,实现人类社会的福祉。华为公司的预训练大模型白皮书,我相信,能为我们建立普遍理性和平等的社会,提供强大的力量。姜育刚复旦大学教授 博士生导师教育部长江学者特聘教授 复旦大学人事处处长近年来,以 GPT-3、CLIP 为代表的超大规模预训练模型被陆续提出,通过在海量数据上进行自监督学习,有效提升了自然语言处理与计算机视觉领域多个下游任务的性能。华为云在预训练大模型
12、领域有着深厚的技术积累,于 2021 年发布了“盘古”系列超大规模预训练模型,受到了学术界和工业界的广泛关注。华为云预训练大模型白皮书总结了大模型的发展趋势及其带来的机遇,为未来研究提供了重要借鉴。07让预训练大模型成为 AI 的操作系统近年来,国内的云计算市场增速明显,企业上云明显提速。客户的需求逐步从“资源型需求”转向“智能型需求”及“业务型需求”,意味着 PaaS、SaaS 等各行业各场景的云解决方案将受到更多关注。尽管该市场呈现出了广阔的前景,业务的庞大数量和场景种类夸张的多样性也意味着巨大的难度。随着市场的成熟上升,“一招鲜吃遍天”的套路相对于针对用户需求定制化的解决方案已不具优势,
13、意味着在细分领域深耕的中小型友商也具有瓜分市场的竞争力。因此,如何在保证市场占有率并支撑如此大量的业务的情况下,控制资源和成本、保证交付效率和保证产品质量是云厂商要解决的核心难题。引言PREFACE封闭的作坊式的 AI 开发局限于特定的场景。特定的数据无法满足 AI 快速落地行业的需求AI 走进企业核心生产系统,开始创造更大价值高成本,高门槛、无积累AI 进入千行百业面临诸多挑战1 场景碎片化,作坊式开发难以规模复制2 行业知识与 AI 技术结合困难3 行业普通 AI 模型攻击、隐私、安全担忧“2025 年,企业对 AI 的采用率86%(当前4%)”EI AI 实践:600+项目,30%进入生
14、产系统,但是如果人们对电磁的理解停留在法拉第的电磁感应层次而没有麦克斯韦的电磁场理论,电气革命是不可能发生的。如果刮风下雨打雷甚至连温度变化都会导致断电,电怎么可能变成一个普惠性的产品,怎么可能变成社会基础设施?模型 1专家 专家 专家 定制场景 1模型 2专家 专家 专家 定制场景 2模型 3专家 专家 专家 定制场景 308为了解决这个困境,预训练大模型应运而生。它收集大量图像、文本等数据,利用无监督或者自监督学习方法将数据中蕴含的知识提取出来,存储在具有大量参数的神经网络模型中。遇到特定任务时,只要调用一个通用的流程,就能够将这些知识释放出来,并且与行业经验结合,解决实际问题。近年来,预
15、训练大模型相关研究和应用呈井喷态势,大有一统人工智能领域的趋势。不过我们也应该看到,预训练大模型距离规模化的商业应用,还有很长的路要走,这里不仅包含技术的演进,也包含商业模式的进化。按照我们的设想,大模型是未来 AI 计算的“操作系统”,向下管理 AI 硬件,向上支撑 AI 算法,使得 AI 开发更加规范化、平民化。我们希望通过编写预训练大模型白皮书,将我们团队在研究和落地中获得的经验总结下来,更好地促进行业的进步。另一方面,随着工业生产越来越强调智能化,大量传统行业开始积累领域数据,并寻求人工智能算法以解决生产和研发过程中遇到的重复而冗杂的问题。这就意味着,人工智能算法在落地的过程中,将会面
16、对大量不同场景、不同需求的用户。这对算法的通用性提出了很高的要求。然而我们注意到,当前业界大部分人工智能开发者,正在沿用传统的“小作坊模式”,即针对每个场景,独立地完成模型选择、数据处理、模型优化、模型迭代等一系列开发环节。由于无法积累通用知识,同时不同领域的调试方法有所不同,这样的开发模式往往比较低效。特别地,当前人工智能领域存在大量专业水平不高的开发者,他们往往不能掌握规范的开发模式和高效的调优技巧,从而使得模型的精度、性能、可扩展性等指标都不能达到令人满意的水平。我们将上述问题,称为人工智能算法落地的碎片化困境。超大的神经网络预训练模型华为云盘古大模型AI 工业化开发流水线流水线流水线泛
17、化复制模型泛化 极大节省训练投入流水线 工具集成 训练更快盘古大模型效率提升更佳模型性能10-100 倍模型 3模型 2模型 1场景 1场景 2场景 3强壮的网络架构优秀的泛化能力预训练微调&部署迭代NLP大模型(千亿参数)CV大模型(30亿参数)多模态大模型科学计算大模型09大模型是 AI 发展的必然趋势盘古大模型家族介绍/09/191.1 人工智能发展史简介1.2 人工智能发展趋势的总体研判2.1 视觉大模型2.2 语音语义大模型2.3 多模态大模型2.4 科学计算大模型2.5 图网络大模型10盘古大模型应用案例/433.1 视觉大模型案例:TFDS 图像自动识别3.2 语音语义大模型:赋
18、能智慧销售3.3 多模态大模型:一网统管事件工单分配3.4 图网络大模型:水泥生产系统的自动控制3.5 图网络大模型:炼焦系统的自动控制展望未来,大模型的机遇与挑战并存/5511大模型是 AI 发展的必然趋势13人工智能从 1956 年被正式提出以来,经历了数十年的发展历程。人工智能诞生初期,其研究主要分为三个流派,即逻辑演绎、归纳统计和类脑计算。其中,逻辑演绎方法局限性较强,难以对建模复杂的实际问题进行建模;而类脑计算方法过多地依赖于生命科学,特别是脑科学的研究,而后者的进展难以满足人工智能的一般要求。在进入 21 世纪依赖,在大数据和大算力的支持下,归纳统计方法逐渐占据了人工智能领域的主导
19、地位,并且催生出一系列方法论和应用,深刻地影响和改变了人类社会。1.1 人工智能发展史简介14人工智能发展史孕育期19561974198019871994繁荣期繁荣期繁荣期低谷期低谷期反向传播算法的提出深蓝战胜世界冠军人工智能的乐观思潮神经网络的数学模型通用计算机出现图灵测试的提出达特矛斯会议的召开感知器算法和硬件化DARPA 资金的支持Perceptron出版DARPA 终止资助对盲目乐观的反思专家系统出现统计学习受到重视专家系统的局限性硬件需求大幅下降资金支持再次减少统计学习方法的应用深度学习开始统治AlphaGo 战胜李世乭大规模预训练模型再次获得资金支持15如上图所示,人工智能的主要发
20、展阶段如下:孕育期这一时期的代表性成果,主要包括Warren S.McCulloch和 Walter Pitts 提出的人工神经网络的视觉模型,以及Alan M.Turing 设想的验证人工智能的思想实验(即图灵测试)。同时,1946 年出现的通用计算机 ENIAC,也为人工智能的复杂演算提供了硬件支撑。19431956 年第一次繁荣期以 1956 年达特茅斯会议为标志,人工智能被正式提出并且进入第一次繁荣期。基于逻辑演绎的人工智能算法解决了某些特定领域的问题(如证明数学定理),而基于亚符号系统的感知器算法也被实现出来,甚至在 1957年出现了专门用于模拟感知 器 的 计 算 机 Mark I
21、。此时的学者对于人工智能抱有不切实际的乐观幻想,包括Marvin L.Minsky(1969 年图灵奖得主)和 Herbert A.Simon(1975 年图灵奖得主)在内的多名学者,均预测人工智能将在 20 年内获得彻底解决。而以 DARPA 为代表的政府机构和大型企业,也为人工智能的研究注入了大量资金。19561974 年第一次低谷期研究者们很快意识到了第一代人工智能算法的极限。1969 年,Marvin L.Minsky发表著作Perceptrons,几乎一手摧毁了联结主义(即人工神经网络)方面的研究;同时,基于逻辑演绎的算法也被证明需要指数级时间以解决大部分问题。随着DARPA 等机构
22、撤出大部分投资,人工智能领域也开启一波反思浪潮,其中有代表性的是 James Lighthill 于 1973年发表的人工智能综述报告和 John R.Searle 于 1980 年提出的中文房间问题。19741980 年16第二次繁荣期随着专家系统的出现和盛行,人工智能算法开始在限定领域内解决实际问题。1975 年 出 现 的 MYCIN 算法,能够在医学领域完成血液传染病的诊断工作。同时,以 Hopfield 网络为代表的新型神经网络和 David E.Rumelhart 发明的反向传播算法,极大地增强了人工神经网络的适用范围。1989年,Yann LeCun(2018 年 图 灵奖得主)
23、使用五层神经网络识别手写数字,该方法取得巨大成功并在 20 世纪 90 年代识别了美国超过 10%的手写支票。以 DARPA 为代表的机构再次行动起来,使得20 世纪 80 年代后半段在人工智能领域的投入资金比起前半段增长了数倍。19801987 年第二次低谷期然而,专家系统很快遇到了新的困境。研究者们发现,即使在限定领域中,面对未知或者未定义的问题时,即使问题十分简单,专家系统的表现也无法预测甚至控制。随着支持人工智能研究资金的再度锐减,研究者们再次开始反思,并且将思路逐渐从符号系统(如归纳演绎方法)转向亚符号系统(如统计学习方法)。这一时期,研究者们开始认识到感知和交互的重要性,其中影响较
24、大 的 观 点 包 括 David Marr在其著作Vision中提出的视觉理解模型和 Rodney A.Brooks 提出的“模型可有可无,世界即是描述自身最好的模型”等。19871993 年第三次繁荣期随着现代计算机的存储能力和算力不断增强,统计学习方法逐渐成为人工智能领域的绝对主流。在人工智能的各个领域,如计算机视觉、语音识别、自然语言处理等,手工设计的模型都逐渐被统计学习模型所取代。从 2011年开始,深度学习浪潮席卷人工智能领域,终于在多个领域达到或者超越了人类水平。人工智能的第三次繁荣期,也是历史上最长的一次,至今仍未有结束的趋势。虽然许多本质问题尚未得到解决,但人工智能的诸多应用
25、已经深刻地改变了人类社会。1993 年至今值得一提的是,深度学习并未解决人工智能的本质问题。未来,业界很可能还要经历数次低潮与革新,方能达成真正的通用人工智能。在此之前,虽然存在着关于强/弱人工智能的讨论和对科技奇异点的担忧,但业界的重心依然是人工智能算法的研发。17从古早阶段开始,人工智能就分为不同的流派。人工智能的先驱们,探索和论证着通向真正智能的崎岖道路。有趣的是,有影响力的三大流派(逻辑演绎流派、归纳统计流派、类脑计算流派)从人工智能创立之初便存在,时至今日也未由其中一派彻底统一。三大流派各有优劣势。类脑计算流派的目标最为宏远,但在未得到生命科学的支撑之前,难以取得实际应用。归纳演绎流
26、派的思考方式与人类相似,具有较强的可解释性。由于对数据和算力的依赖较少,归纳演绎流派成为人工智能前两次繁荣的主角。随着学界对人工智能困难程度的理解逐渐加深,数理逻辑方法的局限性被不断放大,并最终在第三次繁荣期中,逐渐让位于统计学习的“暴力美学”。这种“抛弃人类先验,拥抱数据统计”的思想,在深度学习出现后被推向高峰。1.2 人工智能发展趋势的总体研判18值得强调的是,深度学习是时代的产物。如果没有与大数据(存储设备和移动互联网的发展)和大算力(尤以 GPU 的飞速演进为代表)的支持,深度学习就不可能在短短的 3-5 年间占领人工智能的大部分领域。而随着人工智能模型的参数越来越多,训练所需的数据集
27、规模也越来越大。为了适应巨大的参数空间和数据量,研究者们提出了层次化建模和分散表示的思想,使得复杂数据匹配的效率和精度获得提升,从而大大促进了特征学习。从技术的角度看,深度学习的核心是深度神经网络:通用的骨干网络配合特定目的的头部网络,使得深度学习统一了各个子领域内的不同问题。例如,在计算机视觉领域,彼此十分相似的深度神经网络已经成为图像分类、物体检测、实例分割、姿态估计等具体问题的通用框架;而在自然语言处理领域,一种被称为 Transformer 的模块也被大量使用,研究者们得以建立起通用的语言模型。然而,从本质上看,深度学习依然没有跳出统计学习的基本框架:特征抽取和模板匹配。相比于人类基于
28、知识的推断,这种方式无疑是低效的。在人工智能进入千行百业的大背景下,这种设计理念必将导致人工智能算法的通用性受限,因为对于任何新的概念乃至新的实体,算法都需要专门的训练数据来提供相关的信息,而在没有基础模型支撑的情况下,开发者们必须从头开始完成收集数据、训练模型、调试模型、优化部署等一系列操作。对于大部分人工智能开发者而言,这无疑是重大的挑战;同时,这也使得人工智能算法的开发成本居高不下,难以真正惠及细分行业,尤其是中小型企业。AI19回顾历史,2011 年前后,正是传统统计学习方法的鼎盛时期,在计算机视觉领域甚至出现了参数量超过10亿的词袋分类模型即使在 2021 年,10 亿参数的计算机视
29、觉模型也足以被称为大模型。然而,2012 年左右,深度神经网络仅用 6000 万参数,即彻底击败词袋分类模型,引领计算机视觉发展至今。深度神经网络之于词袋分类模型,本质上是在特征匹配效率上产生了突破;我们猜测,在大模型发展到一定程度时,会产生另一个维度的突破,从而使得统计学习方法“进化”至下一阶段。目前看来,这个突破有可能产生于大模型与知识的结合。根据实践经验,预训练大模型加持下的人工智能算法(包括计算机视觉、自然语言处理等),相比于普通开发者从头搭建的算法,精度明显上升、数据和计算成本明显下降,且开发难度大大降低。以计算机视觉为例:在 100 张图像上训练基础物体检测算法,原本需要 8 块
30、GPU 运行 5 个小时、1 名开发者工作 1 个星期才能完成,而在预训练模型的支持下,只需 1 块 GPU 运行 2 个小时,而几乎不需要人力干预。综合人力、算力开销研判,上述案例的开发成本节约至原先的10%甚至 1%。在下一个划时代的计算模型出现以前,大模型将是人工智能领域最有效的通用范式,并将产生巨大的商业价值对大模型的研究,将有可能启发下一个通用计算模型预训练大模型是解决上述问题的有效手段。预训练大模型是深度学习时代的集大成者,分为上游(模型预训练)和下游(模型微调)两个阶段。上游阶段主要是收集大量数据,并且训练超大规模的神经网络,以高效地存储和理解这些数据;而下游阶段则是在不同场景中
31、,利用相对较少的数据量和计算量,对模型进行微调,以达成特定的目的。我们将在第 2 章更详细地介绍预训练大模型的方法论。虽然预训练大模型看起来很难导向真正的人工智能,但我们做出两个重要的判断:20综上所述,预训练大模型是现阶段人工智能的集大成者,代表了统计学习流派的最高成就。在新一代技术未出现前,它将是人工智能研究和开发的最强武器。事实上,围绕大模型的研发和落地,中美之间已经展开了新一轮的竞争。美国中国Turing-NLG(微软,EN)参数:170 亿数据:1-5 百 GB资源:300-500GPUs盘古(华为)NLP&CV&多模态&科学计算参数:1000 亿数据:40TB 文本(更新)资源:鹏
32、城云脑悟道 2.0(北京智源)NLP&多模态参数:1.75 万亿数据:4.9TB 图像,文本资源:神威超算文心 ERNIE 3.0(百度)NLP参数:100 亿数据:4TB 文本资源:384 V100 GPUsM6(阿里)多模态参数:100 亿数据:1.9TB 文本 292GB 图像资源:128 A100 GPUs紫东太初(中科院自动化所)多模态参数:千亿级数据:文本、图像、音频GPT-3(OpenA,EN)参数:170 亿数据:570GB资源:10000 V100 GPUsText Sum.(OpenAI,EN)参数:67 亿数据:12 万文章资源:微调使用 320GPU-DaysSwitc
33、h-C(谷歌,EN)参数:1.6 万亿数据:750GB资源:32TPU 核威震天(微软-英伟达,EN)参数:5300 亿数据:-资源:-PaLM(谷歌,EN)参数:5400 亿数据:-资源:4096 TPU-v3通过大模型构筑 AI 技术竞争壁垒是当前中美 AI 技术竞争的热点盘古大模型在商业落地走在最前列1盘古+工作流实现低算力,低门槛,边学边用的使用模式结合 ModelArts 和智能体工作流能力,实现轻量化交付借助华为已有行业基础,构筑行业大模型23盘古大模型家族介绍2123基于上述研判,华为云团队于2020年立项AI大模型,并且于2021年4月首次以 盘古预训练大模型(简称盘古大模型)
34、的名称对外发布。盘古大模型集成了华为云团队在 AI 领域数十项研究成果,并且受益于华为的全栈式 AI 解决方案,与昇腾(Ascend)芯片、昇思(MindSpore)语言、ModelArts 平台深度结合。本章简要介绍盘古大模型的若干组成部分,剖析构建大模型的关键技术。计算机视觉的主要目标,是设计出能够识别视觉信号,并且对其进行各种处理和分析的程序。换句话说,计算机视觉是研究计算机如何去“看”的学科。其中,较为典型的任务包括图像分类、物体检测、物体分割、物体追踪、姿态估计等。下图展示了图像分类中最著名的 ImageNet 数据集(超过 2 万个物体类别)和 MS-COCO 数据集(包括检测、分
35、割等多种任务)。2.1 视觉大模型The ImageNet dataset15M images,21K categories,1.5TBThe MS-COCO datasetdetection,segmentation,pose estimation,etc.24在计算机中,视觉信号一般以“密集采样强度”的方式存储:不同方向入射的光线在每个信道(如红绿蓝)上的强度被记录下来,用于呈现图像的基本内容。图像中的每个基本单元被称为像素很显然,这些像素并不能代表基本的语义信息,因而图像的基本存储形态和人类能够理解的语义之间,存在很大的差距。在学界,这种差距被称为“语义鸿沟”,这也是几乎所有计算机视觉研
36、究所需要处理的核心问题。进一步探究图像的存储形态,我们会发现图像信号的若干特点:鉴于上述特点,基于深度神经网络的预训练大模型就成为了计算机视觉落地的最佳方案之一。预训练过程能够一定程度上完成视觉信号的压缩,深度神经网络能够抽取层次化的视觉特征,而预训练结合微调的范式则能够应对丰富多变的域。以下,我们讲述盘古视觉大模型的整体思路和技术方案。内容较复杂信息密度低域丰富多变图像信号的基本单位是像素,但是单个像素往往不能表达语义。图像识别的任务,就是构建特定函数,使得像素级输入能够产生语义级输出。这种函数往往非常复杂,很难通过手工方式定义。图像信号能够忠实地反映事物的客观表征;然而其中相当部分的数据被
37、用于表达图像中的低频区域(如天空)或者无明确语义的高频(如随机噪声)区域。这就导致了图像信号的有效信息密度较低,特别是相比于文本信号而言。图像信号受到域的影响较大,而且这种影响通常具有全局性质,难以和语义区分开来。例如,同样的语义内容,在强度不同的光照下,就会体现出截然不同的表征。同时,相同的物体能够以不同的大小、视角、姿态出现,从而在像素上产生巨大差异,为视觉识别算法带来困难。252.1.1 数据收集图像是一种复杂的非结构化数据,包含丰富的语义信息。现如今,还没有任何一种方法能够对图像数据的数学规律进行准确的描述,因而人们只能通过收集大量的数据,来近似现实中图像数据的分布。2009 年出现的
38、 ImageNet 数据集是计算机视觉领域的重要里程碑,它使得训练、评估大规模图像处理方法成为可能。随着计算机视觉技术的进步和更多应用的出现,ImageNet数据集的局限性逐渐显现出来,包括规模、复杂性等。为了解决这一问题,我们必须收集更大规模、更加复杂的图像数据,而这也是业界的一致趋势。我们通过多种渠道收集图像数据,包括但不限于公共数据集合下载、自有数据集合扩充、各搜索引擎关键字爬取、以图搜图、视频图像抽帧等。从这些原始数据中,我们筛除了低分辨率、低曝、过曝、简单背景等低质量图像数据,再通过已有预训练视觉模型进行重复图像的判断和去除,最终保留超过 10 亿张高质量图像数据,占据约 40TB
39、空间。10 亿+图像数据40 TB存储空间覆盖自动驾驶,电力,铁路,遥感等262.1.2 预训练方法我们使用的神经网络模型覆盖了计算机视觉领域最为常见的卷积网络和 transformer 架构,两者既可以分开使用,也可以按需结合以达到更好的效果。利用自动机器学习算法,我们能够支持并调用不同大小的神经网络,其中最大的计算模型具有接近 30 亿参数,最小的模型只有数十万参数,其大小相差超过 1000 倍,为适配不同的视觉任务提供了可能性。我们收集的训练数据大部分来自互联网,不仅具有相当程度的噪声,而且不包含准确的语义标签。为了充分利用这些数据,我们设计了自监督学习方法,即通过某种或者某几种代理任务
40、,教会模型如何理解视觉数据,在没有语义标签的情况下也能拟合复杂的数据分布。特别地,我们在对比学习的基础上优化了相关代理算法,业界首创在对比度自监督学习中引入等级化语义相似度,即挑选那些距离相应聚类中心更近的最近邻作为正样本,并且在拉近语义相似样本的时候引入了混合样本增强,以减少样本选取过程中的噪声影响。在此基础上,我们拓展自监督学习算法中正样本的数目,使得正样本集合能够更加高效地被聚集,同时避免受到大量负样本优化的影响。我们采用的预训练算法(发表于 TPAMI 上)的简略示意图如下所示:(注:基于等级化语义聚集的对比度自监督学习)Encoder qEncoder KCandidates in
41、DatasetBottleneckBottleneckBottleneckBottleneckBottleneckMLPMLPConvBNReLUConvBNReLUConvConvConvConvConvConvBNBNBNBNBNBNReLUReLUConvBNReLUConvBNReLUMixMixed SampleAnchor SamplePositive SampleSemanticSearch272.1.3 效果展示盘古视觉大模型在 ImageNet 数据集的线性分类评估上,首次达到了与全监督相比拟的结果。同时,受益于更好的语义对齐效果,我们的方法在小样本学习上表现优异:使用 Im
42、ageNet上 1%和 10%的 标 签 训 练,我 们 的 方 法 达 到 了 66.7%和75.1%的分类精度,均显著超越对比方法。以此方法为基础,我们设计了具有 10 亿参数量的基础模型,并在超过 10 亿张无标注图像组成的数据集上进行预训练。所得到的模型,在ImageNet 上 达 到 了 88.7%的分类精度,而 1%标签的半监督学习精度也达到 83.0%。同时,盘古大模型在超过 20 项下游任务上进行了测试,展现出良好的泛化能力,如下表所示。盘古预训练模型:分类性能比较盘古预训练模型:检测性能比较数据集业界最佳模型盘古预训练模型1Aircraft(飞行器)90.4389.322CU
43、B-200-2011(鸟类)86.9091.803DTD(纹理)80.0585.004EuroSAT(卫星图块)98.8598.985Flowers102(花)97.0799.696Food101(食物)92.2194.587Pets(动物)95.2995.918SUN397(场景)71.5178.929StanfordCars(车)92.4894.0910StanfordDogs(狗)87.4191.2811Average89.2291.96数据集业界最佳模型盘古预训练模型1VOC(自然场景)72.276.62Comic(风格变换)35.638.03Clipart(风格变换)57.561.0
44、4Watercolor(风格变换)34.436.95DeepLesion(医疗)36.738.16Dota 2.0(遥感)21.221.07Kitti(自动驾驶)29.632.98Wider Face(人脸)35.336.39LISA(红绿灯)43.542.710Kitchen(厨房场景)53.655.0average41.9643.8528自然语言,是人类进化过程中形成的一种高效的存储和交换信息的载体。人们在使用自然语言交流时,既可以使用“听说”的方式,也可以使用“读写”的方式。这就意味着,对自然语言的理解和使用可以分为两个部分,即对于文字和音频的处理,合成为语音语义处理。在人工智能领域,这
45、两个子课题分别被称为自然语言处理和语音处理。与计算机视觉类似,语音语义处理的目标,就是让机器学会像人一样理解并使用文字和声音,与人类或者其他智能体交流。如图所示,自然语言处理和语音处理都可以分为理解和生成两个部分。其中,“理解”的目标是让机器理解人类语言背后的语义信息,“生成”的目标让机器使用人类语言表达自己的意图。自然语言处理和语音处理的区别在于,前者主要处理文本信息,后者主要处理音频信号。大部分情况下,文本和音频信号具有很强的关联性,但是某些情况下,它们也可以表达各自擅长,而另一种载体难以表达的事物(如音乐难以用文本准确表达出来)。2.2 语音语义大模型音频语义语义文本床前明月光语音识别(
46、ASR)文本理解语音合成(TTS)文本生成床前明月光文本音频29语音语义处理的一个核心问题,是将文字和声音表达为机器容易理解和处理的形式。在深度学习诞生之前,人们主要使用特征工程的方式,通过人工定义一些特征函数,将文字和声音转化为特征向量。这种方法依赖专家知识,且特征很难扩展,无法规模化应用。随着深度学习技术的发展,自动学习语言的向量表示逐渐成为主流。对于“理解”任务,通常使用一个神经网络作为编码器,将语言映射到低维向量,用向量表达语义信息;而对于“生成”任务,通常再使用一个神经网络作为解码器,将低维向量映射到语言,将向量中蕴含的信息表达出来。上述编码器-解码器框架,能够用于处理文字和音频信号
47、,其中文本编码器和音频编码器具有较大的差异,而文本解码器和音频解码器却大致相同。在深度学习时代,如何设计编码器和解码器的网络结构,以及如何学习编码器和解码器的参数,是两个关键的技术问题。在小模型时代,CNN模型和RNN模型技术占据主流,尤其是RNN中的一类被称为LSTM的模型,凭借其处理远距离依赖的能力大放异彩。然而,RNN 模型的优化不稳定、且难以并行计算,这成为了构建大规模语言模型的障碍。2017 年,基于自注意力的 Transformer 模块被提出,它结合了已有方法的优点,在速度和表达能力上都体现出巨大优势,因而迅速占领了自然语言处理和语音识别领域。随着大规模语料库的出现和自监督学习方
48、法的成型,业界在 2018 年迎来了大规模预训练模型 BERT 并就此进入大模型时代。如今,预训练大模型凭借其出色的泛化能力和在此基础上发展的基于提示的微调技术,大大简化了各种下游任务的实现方式,推动了自然语言处理和语音识别领域的巨大发展,成为语音语义处理领域落地的最佳方案。以下,我们讲述盘古语音语义大模型的整体思路和技术方案。302.2.1 数据收集与计算机视觉领域类似,自然语言处理和语音识别也建立在大规模数据集的基础上。所谓“读书破万卷下笔如有神”,为了让模型掌握强大的语言理解和生成能力,我们需要准备海量的数据让模型进行学习,覆盖各个主题和领域。关于文本部分,我们从互联网公开爬取了 40T
49、B 原始网页数据,并且进行解析和清洗。我们使用正则匹配等方式,过滤掉常见噪声数据,如网页标签、特殊字符、错误编码等,并且使用哈希的方法对数据进行去重,然后对数据的长度进行规范,舍弃太短的文章并切分太长的文章,以确保输入长度在合理的范围内。最终,我们得到约 647GB 文本数据,其组成如下图所示。关于语音部分,我们从互联网公开爬取了超过 7 万小时普通话音频数据,并将其转换为音频文件,共计约11TB。视频来源包括新闻播报、影视剧、综艺节目、动画等。270GB百科知识200GB新闻博客106GB文学作品71GB社交媒体2.2.2 预训练方法对于语义部分,我们使用的神经网络是基于 Transform
50、er 结构的编码-解码器模型。编码器负责文本理解,使用双向自注意力机制,让每个词充分“观察”它两边的词,以捕获它在上下文中的语义信息。解码器负责文本生成,使用单向自注意力机制,逐词进行生成,每个词只能“看到”它前面的词,根据上文的信息来预测下一个词。31为了让模型从海量文本数据中学到语言知识,需要设计合适的学习目标。我们提出多任务融合的训练策略,以让模型同时获得理解能力和生成能力。针对理解能力,我们使用遮罩语言模型作为训练目标,即在原文中挖空,让模型做完形填空任务,例如对于“床前明月光疑是地上霜”这句话,我们从中随机选取一些位置进行挖空,如将“明月”和“霜”挖掉,模型的训练目标是将挖掉的内容预
51、测出来。针对生成能力,我们使用回归语言模型作为训练目标,即给定一句话的上半部分,让模型预测下半部分,例如将“床前明月光”作为输入,模型的训练目标是将“疑是地上霜”预测出来。此外,为了让模型具备零样本推理能力,即直接处理下游任务的能力,我们还收集了超过 100 个下游任务训练数据,涵盖情感分类、意图理解、语义匹配、实体识别等常见的自然语言任务,将这些数据也加入预训练当中。对于语音部分,其解码器与文本类似,我们主要考虑其音频编码器。我们使用卷积与 Transformer 结合的网络结构,底层用卷积神经网络提取局部信息,上层用 Transformer 网络提取全局信息。我们使用对比学习的训练目标,将
52、音频中挖掉一个片段,再随机采样一些片段作为负例,让模型从中找出正确的被挖掉的片段。多任务混合遮罩语言模型回归语言模型下游任务床 前 X 光 疑 是 地上 Y这段新闻:俄罗斯的.类别是什么床 前 明月 光X 明月 Y 霜疑 是 地上 霜军事编码器解码器编码器解码器编码器解码器322.2.3 效果展示盘古的语义模型是业界首个千亿中文大模型,发布时(2021 年 5 月)在中文理解类榜单 CLUE 上获得第一名。CLUE 是中文理解类最权威的榜单,包括新闻分类、语义匹配、阅读理解、成语完形填空、指代消解等 10个任务。对于生成类任务,我们在 NLPCC2018 文本摘要任务上取得了业界最佳成绩,超越
53、第二名 60%。由于多任务预训练,我们的模型具有强大的零样本推理能力,相比于 RoBERTa 模型,零样本推理准确率提升超过 50%。我们的语音模型是当前最大的中文语音模型之一,拥有超过 4 亿参数,在自有数据上相比于基线模型字符错误率相对降低 10%。下图展示了几个典型的自然语言理解任务,包括文本分类、阅读理解、实体识别等。盘古大模型在基于提示的微调下,能够轻松地在这些任务上取得很高的理解精度。文本分类任务输入这件衣服款式一般,但做工挺好的,价格也便宜,推荐购买输出积极输出白白输出姚明-人物上海-地点休斯顿火箭队-组织输入明明明明明白白白喜欢他,但他就是不说,他很高冷。提问:谁喜欢明明?输入
54、姚明出生在上海,曾致力于休斯顿火箭队阅读理解任务实体识别任务33人类在理解外部世界时,往往需要综合考虑多种信息,如视觉、听觉等。在人工智能领域,多模态任务的主要目标就是处理和关联多源异构信息(如语音信息、文本信息、图像信息、视频信息等),通过设计相应信息融合或交互方法来综合提取多模态知识。因此,多模态任务与前述计算机视觉或者自然语言处理等处理单一模态的任务不同,需要在海量的多模态数据上完成预训练,然后将预训练的知识迁移到下游各项任务中,从而提升相应下游任务的精度。典型的多模态任务如下图所示,包括跨模态检索(譬如以文搜图或以图搜文)、视觉问答(通过图像内部所提供的信息对相关问题作答)、视觉定位(
55、定位在一张图像中一段话所描述的对应区域),等。由于多模态数据具有多源异构的特点,理解任务的核心困难就在于如何将不同形态信息进行统一化表示,从而使得计算机能够处理完成多源异构信息的交互与知识抽取。盘古大模型围绕视觉(图像)和语言(文本)这两种最常见的模态展开研究,完成了一套预训练配合下游任务的流程。以下,我们将讲述盘古大模型的整体思路和技术方案。2.3 多模态大模型A man in a brown shirt rides an elephant into the water.A man and a boy are talking about a bicycle in a store.A man
56、with a red helmet on a small moped on a dirt road.A pigeon greets three bicyclists on a park path.A kid is to blow out the single candle in a bowl of birthday goodness.Woman on right in white shirt342.3.1 数据收集与视觉和语音语义大模型相同,多模态大模型必须在海量、高质量的数据上进行训练。我们采用了业界通用的做法,即从互联网中爬取大量数据,然后使用过滤算法消除其中不符合要求的部分,最终得到高质
57、量的图文配对数据,用于多模态大模型的预训练。具体地说,我们设定大量文本关键字,在搜索引擎上获取排名靠前的图像,并且将图像对应的文本(从元数据中获得)存储下来,形成图文配对数据池。去掉其中的重复数据后,我们进一步筛除其中分辨率过低或者文本长度过短的数据,随后利用已有的多模态预训练模型对这些配对的相似度进行判断,如果相似度太低,则将其文本描述丢弃并使用图像自动描述算法补充生成文本数据。经过上述预处理过程,我们最终得到了约 3.5 亿高质量的图文配对数据,占据约 60TB 存储空间。2.3.2 预训练方法多模态大模型预训练的关键,在于不同模态数据的高效交互和融合。当前主流的多模态大模型架构主要分为单
58、塔架构和双塔架构。其中单塔架构只利用一个深度神经网络(一般是 Transformer)结构来完成图像和文本之间的交互融合,本质上属于信息前融合方案;而双塔架构利用不同的神经网络来完成不同模态的信息抽取,然后仅在最后一层做信息交互和融合,因而属于信息后融合方案。3.5 亿对图文数据60 TB存储空间35盘古大模型采用了双塔架构,其具有模型独立性强、训练效率高等优势。盘古大模型的实现方式很简单:分别使用相应网络抽取图像和文本特征,然后将一个批次的图像和文本特征送入判别器,在对比损失函数的作用下,使得配对的跨模态特征聚集在一起,而不配对跨模态特征被拉远。在大数据集上充分迭代后,模型就能学会将图像和文
59、本对齐到同一空间。此时,图像和文本的编码器可以独立用于各自下游任务,或协同用于跨模态理解类下游任务。然而,当前大多数的多模态双塔架构方法仅仅进行了全局的信息对齐,而对于文本和图像内容的细粒度知识却缺乏考虑。譬如,一幅图像中可能包含很多视觉实体区域,而对应的文本描述中也包含了很多名词短语。以更精细的粒度对齐这些视觉实体和名词短语,将有助于多模态大模型获得更加强大的图文配对能力。基于此,盘古团队提出了自研算法 LOUPE(发表于 NeurIPS 2022 会议)。该算法利用博弈论相关思路将图像中的视觉实体区域和文本中的名词短语提取出,并通过对比学习损失函数进行细粒度对齐。使用这种方法训练出的多模态
60、大模型,在多项下游任务中表现出了更好的精度。A girl in a blue coat is looking down at a dog led by a man in front of a churchA girl in a blue coat is looking down at a dog led by a man in front of a churchWord EmbeddingsPatch EmbeddingsWord TokensCLSCLSPatch TokensEfficient and Semantics-Sensitive Dual-EncoderSemantic Phr
61、asesSemantic RegionsPhrase-Region Semantic AlignmentSemantics-level Shapley InteractionSemantic Region GenerationText EncoderText EncoderText-ImageContrastive LearningSemantics-level Shapley Interaction362.3.3 效果展示盘古多模态大模型在多模态的各项下游任务,如跨模态检索、图像描述自动生成、视觉定位等任务上均取得了业界领先水平。采用 LOUPE 算法预训练所得的模型,在跨模态检索数据集 F
62、licker30k 以及 MS-COCO上取得了当前业界最佳的图文检索精度,其中在 MS-COCO 的以文搜图任务上超过业界标杆算法 CLIP 达12.3%。此外,算法在开放域的物体检测和视觉定位任务中也取得了良好的效果,示意结果如下:(a)Object Detection(b)Visual Grounding37视觉大模型、自然语言大模型和多模态大模型主要面向通用的人工智能问题,例如音频分析、图像识别、语义理解等。人类擅长解决这些问题,因而能够标注大规模数据集供深度神经网络学习。然而,在自然科学中,还存在许多人类也无法解决的问题,如湍流模拟、天气预报、大形变应力建模等。这些问题有着广泛的应用
63、场景,如下图所示:上述问题很有价值,却也非常复杂。在人工智能之前,科学家们通常通过分析实验数据与推演机理公式的方式提炼这些问题的内在规律。这些传统方法,容易在大体量、高维度的数据处理上遇到困难。近年来,随着人工智能技术的飞速发展,业界涌现出了 AI+科学计算类方法,即使用嵌入各类科学方程的深度神经网络,从观测数据和仿真数据中直接学习问题蕴含的规律,以对复杂的科学数据进行分析,了解科学过程的内部机理。2.4 科学计算大模型气象医药游戏水务工业机械航天航空土木.地质应用领域应用场景微分方程气象预报热力学状态方程碰撞模拟拉格朗日方程地震探测程函方程药物性质计算薛定谔方程海浪高度计算谱平衡方程机器人控
64、制欧拉角微分方程飞行器设计N-S 方程结构应力分析本构方程.电子器件性能计算麦克斯韦方程38从预训练大模型的角度看,科学计算大模型与前述大模型存在若干相似之处。它们都建立在大规模数据集上,都需要设计大参数量的神经网络,都需要复杂的优化过程,最后将知识存储在网络的参数之中。以下,我们简单描述科学计算的独特之处。2.4.1 数据收集在 AI+科学计算场景中,数据分为观测数据和仿真数据两类。其中观测数据由观测工具(如游标卡尺,雷达,传感器等)产生,而仿真数据由仿真算法(对应人类知识)产生。这两类数据及其融合数据和机理知识,都可以作为 AI 模型的学习对象。不同科学计算场景的观测数据往往相差巨大,观测
65、数据的收集往往需要特定领域的专业仪器与系统的实验,例如蛋白质结构预测问题中蛋白质结构的测定需要依赖于 X 射线衍射方法与核磁共振法、短临降雨预报问题中需要气象雷达收集的雷达波反射率数据、植物表型分析问题中数据则来自于实验员的收集,等等。在一些科学计算场景中,观测数据的数据量非常庞大,例如气象数据中的全球气象站历史数据、卫星数据和雷达回波数据。也有一些场景中,观测数据量相对较少,例如结构应力分析力传感器收集的数据。AI 模型AI 模型AI 模型AI 模型过去风速未来风速海浪高度氨基酸序列蛋白质结构药物性质39数据量噪音数据结构数据变化幅度准确度收集方式数据特点应用雷达回波数据GBTB级别大(X,
66、Y,Z,T)每一个空间点有对应的雷达 回波值中等中等气象雷达原始数据是极坐标形式,拼接雷达回波数据中有空白区域短临降雨预报植物表型记录数据MBGB级别中等(N,C)每株植物每种特定表型(如产量,株高)有对应值较小高实验员手工收集或者高通量表型分析仪器数据收集难度较高,数据点较少植物表型-基因型关系分析氨基酸序列数据TBPB级别小固定词表的序列数据大高由测定的DNA 序列推算出序列数据,与文本数据相近蛋白质结构预测气象中心预报数据TBPB级别小(X,Y,Z,T)较大低由气象仿真算法得到仿真数据和实际场景的观测数据有系统误差气象要素预报大气资料再分析数据PB 级别大(X,Y,Z,T)较大中等由气象
67、仿真算法与观测算法融合得到和实际场景观测数据有一定系统误差,但是包含观测数据的信息中长期气象预报 仿真数据来自于数值仿真算法的输出,蕴含着丰富的数学物理信息,同一个问题使用不同的仿真算法可以输出不同的仿真数据。仿真数据不同于观测数据,其精度受限于使用仿真算法的准确性和仿真计算的算力多少。相对于观测数据,仿真数据通常数据量更大(取决于仿真时使用的算力),同时缺省值较少,可以作为观测数据的有效扩充。在有些场景中,观测数据和仿真数据由特定的机理知识结合在一起,生成融合数据。如气象再分析数据,再分析数据通常使用同化算法融合仿真数据和实验数据得到结构化的数据,根据不同同化算法与使用的仿真数据也可以有不同
68、的结果。以下总结了若干场景的数据情况。402.4.2 模型构建根据输入数据的性质,算法会选用不同的基础模型用于训练。以海浪预测任务为例,其目标为预测全球范围内海平面的实时浪高,输入和输出数据均为带有时间戳的二维球面数据,因此适合使用二维网络模型。如果将预测范围扩展至三维空间,如进行全球范围内的气象预测,输出和输出均为带有时间戳的三维数据(包括高度),则适合使用三维网络模型。二维网络和三维网络均可以借鉴计算机视觉领域的相应模型,如使用卷积神经网络或者视觉 Transformer 作为骨干架构,配合大数据进行预训练。科学计算的一个显著特点,是可以利用人类在相应问题上积累的经验,而这些经验通常会施加
69、在输出数据上,成为某种约束性质的偏微分方程组。如下图所示,我们可以将此类方程组嵌入神经网络中,辅助模型架构设计或成为额外的约束条件,与标准观测或仿真数据一起,训练神经网络模型。在良好的实现下,这类知识通常能够增强模型的鲁棒性,降低模型拟合训练数据的难度和不稳定性。(注:左图为嵌入偏微分方程的神经网络示意图,右图为海浪预报问题使用的偏微分方程)412.4.3 案例和效果展示以下,我们展示一个典型的科学计算案例,即全球海浪高度预测系统。传统科学计算方法通过求解谱平衡方程计算波浪高度,通常需要使用超级计算机计算,同时消耗大量算力。由于计算无法做到实时完成,当风速等气象要素改变时,传统方法无法给出实时
70、的海浪预测,存在一定时间延迟。海浪预测问题的输入输出都是经纬度网格点上的气象要素数据,在数据形式上与视频数据相似。不同之处在于,视频数据每个元数据是0-255 的像素值,而风速、地形、海浪高度等数据的每个元数据均为浮点数。同时,海浪预测的输出通常不是某种分类,而是连续的预测值,因此需要用回归损失替换深度学习中常用的分类、分割损失。此外,海浪数据和视频数据相比,并不满足平移对称性等,但满足球坐标条件下的一系列不变性,例如绕地轴旋转,因此需要选定满足特定不变性的 CNN 或者 Transformer 架构。盘古海浪预测模型的主体是考虑了旋转不变性的视觉 Transformer 架构,参数量约为五亿
71、。如上所述,神经网络的损失函数由两部分组成,即实际数据上的预测误差和海浪预测本身需要满足的偏微分方程。通过爬取全球近10年的实时海浪高度数据进行训练,模型在验证集上预测的平均误差小于5cm,与传统预测方法相当,完全可以满足实际应用需求。更重要的是,AI 算法的预测时间较传统方法大幅减少:在单张华为昇腾芯片上,1s 之内即可得到全球海浪高度预测,1 分钟内能够完成超过 100 次海浪预测任务,推理效率较传统方法提升了 4-5 个数量级。使用 AI 算法,我们可以迅速得到不同可能的风速条件下的海浪高度,从而进行实时预测和未来情况模拟,对于渔业养殖、灾害防控等场景有极大的价值。图:盘古海浪预测模型可
72、以在短时间内对数千组可能情况进行模拟,得到与传统科学计算方法相当的精度使用昇腾 AI 芯片,AI 模型可以在一秒内给出成百上千组“随机”风速分布下的海浪分布42当前,人工智能技术正在进入千行百业。除了图像、文本等常见数据形态外,还存在大量极度异质化的数据,如公司 ERP 数据(计划、财务、销售、采购)、分子基因、交通网络、股票、点云,等。这些数据很难通过标准的卷积、Transformer 等模块进行处理,因而需要适应不同任务和不同模态的神经网络,以达到量化的效果。我们以图网络的形式对通用数据进行建模,以利用图结构来表达数据元素间的相关性。在上述背景下,盘古图网络大模型被设计出来,它的目标是统一
73、大模型在通用数据域上的构造方案,从而实现不同任务场景下端到端的大模型训练、优化、微调和部署。盘古图网络大模型主要实现的目标有:同时,盘古图网络大模型还配备有其他适合部署的功能,如模型加密(使得模型在云、边、端等不同场景下部署时收到产权保护)和大规模数据训练(支持多节点并发训练),使得整套系统对实际应用更加友好。2.5 图网络大模型在具体任务中,盘古图网络大模型可自适应构建不同基模型和图网络,实现更高的精度盘古图网络大模型可基于图网络提供更强可解释性,以适应敏感场景(如工业、医疗、金融等)的需求通过选择基模型或者微调图网络,直接将盘古图网络大模型迁移至新场景使用盘古图网络大模型的自动学习能力可以
74、适用于不同行业和领域中的不同任务,使得一个模型能够应用于多个任务通过删减、增加基模型,实现盘古图网络大模型的终身学习高泛化终身学习高精度高可解释性冷启动43盘古图网络大模型整体架构如下图所示:图:盘古图网络大模型整体架构盘古图网络大模型的顶层设计,主要分为基模型构建和图网络融合两个部分。在基模型构建部分,模型会自动使用超采样的不同数据集来训练不同的基模型:在这个过程中,不同基模型的超参数通过 AutoML 的相关技术进行搜索(图中的不同颜色的箭头表示不同的数据流,不同颜色的框中表示不同的基模型),减轻了开发者的调参压力。而在图网络融合部分,每个基模型根据输入数据进行预测,而不同的预测结果在图网
75、络中被融合起来,得到最终的输出。该方案的优势在于,图网络中的基模型可以任意增减,而不管如何增减基模型,都不会对图网络的汇聚产生影响,因为图网络本身对于输入的基模型数量不敏感。基模型功能:稀疏链接,分区处理不同分布 模态数据技术:automl,bagging,boosting,rf,cnn,tra.优势:终身学习,课程学习,并行训练推理.图网络功能:中枢协同不同分布 模态模型技术:graph,set,tree,mlp,transformer.优势:对分区数量不敏感,更鲁棒.123412341234数据44为了让开发者更方便地使用这套框架,盘古图网络大模型在代码实现层面进行了架构的良好设计,整体代
76、码结构清晰,易于阅读和维护。图:盘古图网络大模型代码结构示意图上图展示了盘古图网络大模型的基本代码逻辑。系统整体由两部分组成,基模型构建和图网络融合。其中,基模型选取通过 BasicAlgorithm 产生对应算法池内的对应算法和搜索空间,之后使用 HyperparamFind 类进行超参数搜索,之后将搜索好的基模型输入 StackNet 训练该层的层次网络,并输出结果。该结果将作为下一次的输入重复进行新的基模型选择与超参搜索,在得到多个完整的基模型组成的层次网络的输出后,使用图神经网络进行信息聚合,得到输出结果。同时我们也可以将其他训练好的基模型,通过 add_base_algorithm方
77、便地加入其中,进行图网络汇聚(例如图 1 中的虚线的 ModelOutput5),而不需要更改其他基模型、层次网络以及图神经网络。这样的特点,使得盘古图网络大模型能够很容易地应用于各种差异较大的任务。在下一章节,我们会展示盘古图网络大模型的若干实际应用案例。GNNStackNetClassificationBasicAlgorithmRegressionBasicAlgorithmHyperparamFindadd_base_algorithmLayerOutputLayerOutputFinalOutputXGBLGBRFMLP.XGBLGBRFMLP.Modeloutput3Modelou
78、tput1Modeloutput2Modeloutput4Modeloutput5GNN Base model fusionBase model selection45盘古大模型应用案例47TFDS 是 Trouble of moving Freight car Detection System 的缩写,即货车故障轨旁图像检测系统,由检测信息采集、信息处理传输和列检检测中心等设备构成,通过高速像机阵列,拍摄列车车底和侧下部的全部可视信息,经数字化处理后显示于检测中心的信息终端上,通过人机结合的方式,对抓拍后货车车辆的图像进行分析,实现故障检测功能。全路约有 6000 人动态检车员承担着对 TF
79、DS 检测设备所拍摄车辆图像的分析工作。庞大的检车员数量造成每个路局的资金负担。当前,以人均年工资支出约为 15 万元计算,则全路每年在该领域的支出近 10 亿元;同时,车辆故障分析工作强度大、难度高,对车辆专业理论与实际运用需要有很好的水平,要求动态检车员在短时间完成整列车的故障分析,确保整列车的运行安全。TFDS 图像自动识别从 2007 年就开始尝试采用图像自动识别技术进行研究,当时从故障部件的边缘及灰度面积进行,受故障形态多变、图像质量差异大、车体污染等影响,识别结果一直不理想,而且只能对故障形态非常明显的故障进行识别,如:截断塞门手把关闭故障,并采 SVM(支持向量机)技术,识别率才
80、达到80%以上,但对于其他故障,一直没有好的解决办法。因此,当前各路局车辆段都还是采用人工分析方式,TFDS 的智能分析需求并没有得到很好的满足。3.1 视觉大模型案例:TFDS 图像自动识别48基于盘古行业预训练模型的铁路 TFDS 开发方案整车故障综合分析部件目标检测故障识别语义相似样本聚集行业预训练行业预训练部件位置信息基于先验的模板匹配部件故障分类关键点检测局部故障检测大面积地板破损、异物、形变TFDS 行业预训练部件定位模板匹配故障识别异常检测图像质量评估整车综合分析增强图像亮度特征提取图像正常综合判别质量评估模型过曝、欠曝等等级化语义聚集盘古行业预训练模型图像质量评估异常检测部件丢
81、失、错位、出现异常部件等算法识别预报故障形变、折断、脱落等角度、尺寸等故障破损、裂缝部件定位故障识别行业预训练49上图展示了盘古视觉大模型在为 TFDS 定制的解决方案。依托于盘古行业预训练大模型,我们定制化地开发了整体解决方案,包括车型筛选、工位分类、配件筛选、图像质量评估、已与车型先验的模板匹配、多车级联分析等模块,其中盘古大模型核心解决方案包含以下组成部分:基于盘古视觉大模型的整体解决方案,在 5T 检测车间集中作业分析的 14 条线路进行了验证。在 2021 年 9月 19 日至 2021 年 10 月 20 日期间,由 5T 检测车间动态检车员预报并经组长确认为提报故障的数据样本(故
82、障图片)共计 32007 张。在测试环境下,这些故障图片与大量正常图片混合,送入盘古大模型进行判断。如下表所示,实测结果表明,当前盘古大模型的识别精度已经超过人类检测员水平。拦停重点一般准确预测119漏报1故障总数120识别率99.17%识别率98.24%识别率99.45%故障总数28786故障总数3101漏报506漏报17准确预测28280准确预测3084行业预训练模型车辆拆分自动增强和评估模板匹配故障定位、识别根据整列车图像,定 位 出 每 辆 车 的 图像利用百万级无标注铁路行业生成铁路行业预训练模型图 像 进 行 自 动 评估,对正常图像做进一步故障识别,非正常图像返回人工审核根据已知
83、的车型信息建立零部件的相对位置模板,预报部件位置异常(丢失、错位)基于铁路行业预训练大模型,结合目标检测、图像识别框架,进行部件定位、故障识别50销售在许多行业中都是十分重要的角色,包括银行、保险、汽车、地产等,销售的水平直接影响企业的业绩。销售要求具备优秀的语言能力,一方面要理解客户潜在的意图,推荐客户可能感兴趣的产品,另一方面要运用合理的表达方式,突出产品的优点,刺激客户的购买意向。在传统销售场景中,往往以结果作为唯一评价指标,无法对销售的中间过程进行监测,导致客户的潜在购买意图没有被充分挖掘,低水平销售不清楚短板在哪里,难以找到提升方向,高水平销售的成功经验也难以总结。为了改善这一现象,
84、我们将盘古语音语义大模型引入销售过程中,利用大模型强大的语音识别、语言理解、语言生成能力,对销售人员进行赋能。我们对销售和客户的对话内容进行实时处理,首先利用语音模型得到对话内容,再利用语义模型进行分析。对于客户侧,我们分析其购买意向,避免在低意向客户身上花费太多时间,同时分析其潜在购买意图,推荐他可能感兴趣的产品。对于销售侧,我们分析销售人员的讲解内容,避免产品关键信息的遗漏,帮助企业了解每名销售的完成情况,同时为销售推荐恰当的话术,以提升其表达能力。在销售辅助系统的帮助下,可以使初级销售的产能提升 50%左右,中级销售的产能提升 10%到 30%,客户成单率提升 2 到 3 倍。3.2 语
85、音语义大模型:赋能智慧销售 深入业务流程的销售辅助闭环 提升初级销售的产能高达 50%,中 级 销 售 产 能 10%30%线下银行网点依然适用 普通销售人员和精英销售人员业绩差异相当大 企业缺乏有效手段及时发现每名销售的短板并及时给予指导,造成大量业绩损失循环智能的解决方案和业务结果业务场景挑战在银行、保险的线上&线下网点销售场景,借助销售实时辅助系统,提升人员产能 10%50%执行监督实时辅助话术挖掘数据采集51依托于大模型的通用性和泛化性,我们可以将该系统迁移到各个行业中,性能保持稳定。除 B 端场景外,语音语义大模型也瞄准 C 端的多个场景进行发力,包括语音助手、自动问答、对话生成等。
86、由于在预训练中学习过海量的百科类数据,模型中存储了大量通用知识,可以针对特定问题生成合理的答案。如提问“北京有哪些好玩的景点”,模型可以给出“故宫”、“长城”、“798 艺术区”等答案。此外,模型还具备聊天能力,可以生成合理的多轮对话回复。在保险的销售场景,借助名单意向预测和产品推荐系统,实现销售转化率 2x3x 创造性地基于过往沟通内容与成单结果进行意向预测 通过未成交名单意向排序和已成交客户增购意向排序及产品推荐,实现转化率 2x3x 适用于电销、网销、代理人等多种销售渠道 销售人员在“低意向客户”上浪费了大部分精力,销售转化率难提升 产品推荐完全基于人工经验,未经数据验证循环智能的解决方
87、案和业务结果业务场景挑战52一网统管事件工单分配是每个城市运营中必不可少的业务之一。通过对工单分配,可以有效地安排对应部门处理城市当中发现的问题,缩小发现事件和处理事件之间的时间差。当前,一网统管的事项类别分布十分广泛,多达 300 类;此外,大规模城市往往每天都面临着大规模事件工单进行分发,因此事件工单的智能分配是非常关键的问题。事件工单的输入信息,往往是网格员通过巡查上报(拍照+描述)或者市民通过随手拍上报(图片+文本描述)而形成。在使用小模型时,这些事件的分类精度较低,因而产生了大量错误分类,导致事件没有分配到对应的处置单位中,严重影响事件的处理效率。此外,由于事件分类缺乏国家标准,不同
88、城市的事件类别也有一定的特异性;如果使用小模型,就会需要对每个城市做一次数据的重新收集和模型迭代训练,耗时耗力,并不便于城市功能智能分配系统的快速部署。盘古多模态大模型的出现,给了城市事件工单智能分配统一解决方案。基于自研算法,盘古多模态大模型能够在大规模通用图文配对数据上进行预训练。基于预训练模型,就可以在网格员或者市民上传的图片或者文本上抽取有效信息,进而与相应类别的图像或者文本特征进行相似度匹配、关联。通过这种方式,系统甚至可以在零样本标注条件下,解决一网统管事件智能分配系统在各城市应用部署的冷启动、缺乏样本标注等问题,使得一个模型方案就可适配所有城市的业务。同时大模型带来的高泛化能力也
89、使得最终事件分类精度较高,同时伴随着边用边学功能来积累历史工单能够进一步提升模型效果。最终,在该方案下,盘古多模态大模型相较于小模型在事件智能分配上识别精度提升 15%以上,识别精度达到专家水平,取得了客户的广泛认可。当前该业务系统已经在部分省市展开试点验证。3.3 多模态大模型:一网统管事件工单分配53传统流程每个城市均需重新迭代 工作量大 周期长城市 1数据收集、标注耗费大量时间模型重新训练模型部署城市 2数据收集、标注耗费大量时间模型重新训练模型部署解决冷启动 效率高 成本低基于多模态大模型的流程城市 1城市 2城市 3模型部署模型部署通用多模态数据多模态大模型训练模型部署543.4 图
90、网络大模型:水泥生产系统的 自动控制水泥生产需要不断根据窑内相关信息,调整系统的 CV(control variables,可控变量)设定值。在传统生产过程中,这一过程由人工根据设定值和经验手动调节,无法做到实时。而自动化、实时的调节,需要预测器与求解器相结合,由预测器提供准确的窑内条件,而求解器提供 CV 值条件下相关指标的预测结果,并将该结果提供给求解器产生下一个 CV 值,直到找到符合约束的 CV 值输入窑内。这一过程可以视为优化问题,优化目标是能耗最小,约束是相关产品的产量和质量。盘古图网络大模型应用于水泥生产系统时,可以根据水泥窑内实时数据和求解器生成对应的 CV 设定值,从而精准预
91、测当前窑内情况下,相应的 CV 设定值需要的煤耗以及产出水泥的质量。这些信息可以辅助优化过程计算出能耗更低、质量更有保证的水泥生产 CV 设定值,从而实现节能增产的目标。具体流程如下图所示:图:盘古大模型在水泥能耗优化中使用的流程图盘古水泥大模型求解器优化,产生新的CV 设定值窑头煤耗预测结果窑尾煤耗预测结果质量预测水泥窑最优 CV 值窑内实时数据CV 设定值55如下表所示,与传统方法相比,盘古图网络大模型显著提升了 CV 值的预测准确率:R2(越大越好)原版算法盘古 Graph工况 0窑头煤耗0.2180.511窑尾煤耗-1.6660.147质量预测0.0070.534工况 1窑头煤耗0.3
92、540.661窑尾煤耗-1.2350.098质量预测-0.3070.47156图:盘古大模型在焦化系统在使用的示意图3.5 图网络大模型:炼焦系统的自动控制配煤是炼焦的成本控制的关键,而现阶段焦化行业传统配煤方式无法全局掌握各环节的数据,很大程度上依赖于专业配煤师的经验以实现准确配煤。同时,基于传统单一配煤理论的实现方法,很难有效应对煤质混杂愈加频繁的情况。将盘古图网络大模型应用于炼焦系统时,可以将多种配煤理论作为机理模型,作为基模型的一部分输入大模型,与优化方案结合,实现高精度焦炭质量预测和最优配煤比例的高效寻找。引入机理模型后,模型不仅取得了更高的精度,还具有更强的可解释性。适配于焦化行业
93、的图网络大模型的整体应用流程如下图所示:盘古焦化大模型产线数据工艺数据数据预处理及特征工程寻找全局较优解较优解持续迭代优化全局最优解其他生产数据各指标基础机理模型训练优化算法软测量模型57展望未来,大模型的机遇与挑战并存59事物的发展往往体现着历史的必然性。就像人工智能是计算机科学发展到一定阶段后与认知科学结合的产物那样,预训练大模型的出现,是人工智能与大数据、大算力结合的必然结果。如果仅仅局限于深度学习的范畴,那么我们可以这样说:大模型的出现和繁荣,既是当前深度学习的顶峰,也代表着深度学习算法的瓶颈。对大模型的需求,本质上是对大数据的需求:当前的人工智能算法,尚无法高效地建模不同数据之间的关
94、系,并以此解决模型泛化的问题;取而代之地,通过收集并处理大量训练数据,人工智能算法能够通过死记硬背的方式,一定程度上提升泛化能力。从这一角度看,大模型对数据的应用,依然处于比较初级而低效的水平。可以预见到,这种方式的边际效应是明显的:数据集越大、模型越大,提升同等精度所需要的代价就越大。要想通过预训练大模型真正解决人工智能问题,看来也是不太现实的。虽然预训练大模型存在上述局限性,我们也应该看到,大模型给人工智能的落地方案带来了思路上的变化。在实际落地中,尤其针对小样本、长尾分布等场景,预训练大模型与预置工作流配合,往往能够达到很好的效果在预训练数据的加持下,自动生成算法的性能甚至能够超出一般人
95、工智能算法工程师手工设计算法的性能,并且在模型调优所需要的计算复杂度方面也具有相当优势。这说明,预训练大模型在人工智能算法自动化的方向上,又往前迈了一小步。假以时日,在学界和业界的共同孵化下,预训练大模型将成为基于深度学习的算法底座,支撑更多人工智能应用落地,节约更多人力和算力资源。60当然,要实现真正的通用人工智能,业界还有很长的路要走。除了在数据集构建、模型设计乃至评测标准方面持续演进,业界首先需要做的,是抛弃预训练大模型 参数量至上 的评判标准。我们回顾 2010 年左右的计算机视觉算法,可以发现,当时不少视觉算法的参数量也很大;然而,这些大参数量的模型并没有被冠以大模型的称呼,也没有在
96、实际应用中取得很好的效果。在 2012 年举办的第二届 ImageNet 大规模视觉识别竞赛中,仅拥有 6000 万参数的深度神经网络模型,以巨大优势战胜了拥有 10 亿参数的线性 SVM 模型,并随即开启了深度学习在计算机视觉领域的统治。因此,参数量并不是评判模型能力的最好标准如何用好参数、将模型的鲁棒性做得更好,才是我们真正应该关注的问题。技术是跳跃式发展的。在人工智能领域,上一次显著的技术跳跃正是深度学习。然而业界也已经清楚地认识到,深度学习不是终点,基于深度学习的大模型也不是解决任何问题的灵丹妙药。要想达到基本的通用人工智能,像深度学习这样的技术跳跃,至少还需要发生两次。笔者希望,本白
97、皮书的内容能够启发业界的研究者和工程师们:让我们在大模型的基础上更进一步,将人工智能导向更加光明的未来!华为技术有限公司深圳龙岗区坂田华为基地电话:+86 755 28780808邮编:免责声明本文档可能含有预测信息,包括但不限于有关未来的财务、运营、产品系列、新技术等信息。由于实践中存在很多不确定因素,可能导致实际结果与预测信息有很大的差别。因此,本文档信息仅供参考,不构成任何要约或承诺,华为不对您在本文档基础上做出的任何行为承担责任。华为可能不经通知修改上述信息,恕不另行通知。版权所有 华为技术有限公司 2022。保留一切权利。非经华为技术有限公司书面同意,任何单位和个人不得擅自摘抄、复制本手册内容的部分或全部,并不得以任何形式传播。商标声明 ,是华为技术有限公司商标或者注册商标,在本手册中以及本手册描述的产品中,出现的其它商标,产品名称,服务名称以及公司名称,由其各自的所有人拥有。