1、多模态基础大模型技术多模态基础大模型技术白皮书白皮书(2022022 2)中国科学院自动化研究所中国科学院自动化研究所武汉人工智能研究院武汉人工智能研究院华为技术有限公司华为技术有限公司多模态人工智能产业联合体多模态人工智能产业联合体20222022 年年 9 9 月月目目录录1 概述.11.1 多模态基础大模型简介.32 多模态基础大模型国内外发展现状.62.1 语言大模型国内外发展现状.62.2 视觉大模型国内外发展现状.182.3 语音大模型国内外发展现状.272.4 多模态大模型国内外发展现状.382.5 大模型人工智能平台国内外发展现状.432.6 全球战略引导与政策支持现状.512
2、.7 总结.533 多模态大模型关键技术.543.1 中文预训练大模型关键技术分析.543.2 视觉预训练大模型关键技术分析.603.3 语音预训练大模型关键技术分析.673.4 多模态大模型关键技术分析.724 多模态大模型产业分析.764.1 人工智能创新不断,“一体两翼”快速发展.774.2 多模态大模型人工智能成为发展新范式.784.3 从谋求模型与数据规模的“极致”,向场景化实用化发展794.4 多模态大模型成为人工智能基础设施,模型研发从“手工作坊”迈入工业化生产时代.805 多模态大模型典型应用及潜在应用场景.825.1 新闻媒体.835.2 对话客服.835.3 智慧城市.86
3、5.4 生物科技.865.5 智能工厂.875.6 金融科技.885.7 民生服务.885.8 其他应用.896 多模态大模型发展规划建议.906.1 打造工业化范式的多模态大模型生态.906.2 持续完善国产基础软硬件支撑体系.916.3 加快 Ai For Science 领域的发展力度.926.4 健全人工智能产业应用政策标准,大力培养复合型人才.92参考文献.9311概述概述当前,新一代人工智能已成为世界各国的竞争焦点,抢占未来技术战略制高点意义重大。由于持续开放的动态环境、各行业领域不断攀升的系统复杂度以及快速扩大的数据规模总量,智能技术应用需求不断增长,智能形态和认知水平持续深入发
4、展。从互联网到移动互联网再到物联网、星联网时代,计算硬件体积不断压缩、功耗与成本持续降低,新一代人工智能已经成为共性支撑技术,推动经济、社会、民生、国家安全、制造等领域进行数字化和智能化转型。另一方面,伴随互联网/行业大数据、并行计算能力、机器学习算法的突破和人类智能本质认知探索的深入,新一代人工智能发展还在继续加速。随 着 生 成 式 预 训 练(Generative Pre-Train,GPT)、基 于Transformer 的 双 向 编 码 器 表 达(BidirectionalEncoderRepresentation from Transformers,BERT)、GPT-3、DA
5、LL-E、SwitchTransformer、华为盘古、悟道、ERINE、M6 等大规模预训练模型快速涌现,人工智能研究领域正在经历一场有监督学习向无监督学习条件下“大数据+大模型”的大规模预训练范式转变,即基于海量广域数据训练并且经过微调学习自动适应应用于广泛下游任务的模型。大规模预训练模型起源于自监督的语言模型,自监督的深度语言神经网络模型最初只在自然语言处理领域展开研究,直到 2018 年 BERT 模型在 11 项 NLP 任务基准上都打破了纪录,取得了巨大成功,性能远超第二名。2019 年以后,基于自监督学习的语言模型已成为基础性方法,这与 2012 年基于卷积神经网络 AlexNe
6、t 在 ImageNet2012 上的突2破很相似,标志着一个大模型时代的开始。当下,自然语言处理(Natural Language Processing,NLP)领域几乎所有的目前最先进的模型(State-Of-The-Art model,SOTA)都是基于 Transformer 的大模型架构进化而来的,而这种趋势也正在向图像、视频、语音等不同模态、不同领域扩散蔓延。人工智能从单模态有监督迈向多模态自监督学习时代。目前网络数据中 90%以上是图像与视频,更多知识蕴含其中。人类的信息获取、环境感知、知识学习与表达,都是采用跨模态的输入输出方式。如何设计计算机模型并使其具有强大的无监督学习与通