《中国人工智能产业发展联盟:2020年虚拟数字人发展白皮书(34页).pdf》由会员分享,可在线阅读,更多相关《中国人工智能产业发展联盟:2020年虚拟数字人发展白皮书(34页).pdf(34页珍藏版)》请在三个皮匠报告上搜索。
1、2020 年虚拟数字人发展 白皮书 中国人工智能产业发展联盟总体组中国人工智能产业发展联盟总体组 中关村数智人工智能产业联盟数字人工作委员会中关村数智人工智能产业联盟数字人工作委员会 2020 年年 12 月月 前言 在人工智能、虚拟现实等新技术浪潮的带动下,虚拟数字人制作 过程得到有效简化、各方面性能获得飞跃式提升,开始从外观的数字 化逐渐深入到行为的交互化、思想的智能化。以虚拟主播、虚拟员工 等为代表的数字人成功进入大众视野, 并以多元的姿态在影视、 游戏、 传媒、文旅、金融等众多领域大放异彩。 为加快推动虚拟数字人技术和产业创新发展, 中国人工智能产业 发展联盟(以下简称“A
2、IIA 联盟”)总体组协同中关村数智人工智能 产业联盟(以下简称“ZAI 联盟”)数字人工作委员会于 2020 年发起 虚拟数字人推进计划,致力于开展虚拟数字人技术研究、标准制定、 评估测试、合作交流、成果发布及生态建设工作。本白皮书是 AIIA 联盟总体组和 ZAI 联盟数字人工作委员会首次发布。 白皮书回顾了虚 拟数字人发展历程,重点分析了虚拟数字人关键技术和产业发展现 状,对虚拟数字人的未来发展趋势进行了展望,剖析了数字人发展中 的制约因素,提出产业发展建议。 II 目录 前言.I 一、 虚拟数字人概述. 1 (一) 虚拟数字人研究范畴. 1 (二) 虚拟数字人发展历程. 1
3、 (三) 当前虚拟数字人通用系统框架及运作流程. 4 二、 虚拟数字人关键技术趋势. 7 (一) 虚拟数字人技术架构. 7 (二) 建模:静态扫描建模仍为主流,包含人行为动作且具有高视觉保真度的动 态光场三维重建初见端倪. 8 (三) 驱动:智能合成、动作捕捉迁移成为数字人目前主流的动作生产方式. 9 (四) 渲染:随着硬件能力的提升和算法的突破,真实性和实时性均大幅提升 11 三、 虚拟数字人产业应用现状. 14 (一) 虚拟数字人产业视图. 14 (二) 虚拟数字人重点领域应用环境及典型应用案例分析. 16 四、 虚拟数字人发展趋势、制约因素及建议. 23 (一) 虚拟数字人未来发展趋势.
4、 23 (二) 虚拟数字人发展制约因素. 23 (三) 虚拟数字人产业发展建议. 25 附件:虚拟数字人典型企业介绍. 28 2020 年虚拟数字人发展白皮书 1 一、虚拟数字人概述 (一)(一)虚拟数字人研究范畴虚拟数字人研究范畴 “虚拟数字人”一词最早源于 1989 年美国国立医学图书 馆发起的“可视人计划”(Visible Human Project, YHP)。2001 年, 国内以“中国数字化虚拟人体的科技问题”为主题的香山 科学会议第 174 次学术讨论会提出了“数字化虚拟人体”的概 念。这些“虚拟数字人”主要是指人体结构的可视化,以三 维形式显示人体解剖结构的大小、形
5、状、位置及器官间的相 互空间关系, 即利用人体信息, 实现人体解剖结构的数字化。 主要应用于医疗领域的人体解剖教学、临床诊疗等。 与上述医疗领域的数字化人体不同,本篇中所分析的虚 拟数字人(以下简称“数字人”)是指具有数字化外形的虚拟 人物。与具备实体的机器人不同,虚拟数字人依赖显示设备 存在。虚拟数字人宜具备以下三方面特征:一是拥有人的外 观,具有特定的相貌、性别和性格等人物特征;二是拥有人 的行为,具有用语言、面部表情和肢体动作表达的能力;三 是拥有人的思想,具有识别外界环境、并能与人交流互动的 能力。 (二)(二)虚拟数字人发展历程虚拟数字人发展历程 虚拟数字人的发展与其制作技术的进步密
6、不可分,从最 早的手工绘制到现在的 CG (Computer Graphics, 电脑绘图) 、 人工智能合成,虚拟数字人大致经历了萌芽、探索、初级和 成长四个阶段,详见图 1。 2020 年虚拟数字人发展白皮书 2 图 1 虚拟数字人发展历程 20 世纪 80 年代,人们开始尝试将虚拟人物引入到现实 世界中,虚拟数字人步入萌芽阶段。该时期虚拟数字人的制 作技术以手工绘制为主,应用极为有限。1982 年,日本动画 超时空要塞播出后,制作方将女主角林明美包装成演唱 动画插曲的歌手,并制作了音乐专辑,该专辑成功打入当时 日本知名的音乐排行榜 Oricon,林明美也成为了世界上第一 位虚
7、拟歌姬。1984 年,英国人 George Stone 创作出一个名为 Max Headroom 的虚拟人物,MAX 拥有人类的样貌和表情动 作,身穿西装,佩戴墨镜,曾参演了一部电影,拍摄了数支 广告, 一度成为英国家喻户晓的虚拟演员。 由于技术的限制, 其虚拟形象是由真人演员通过特效化妆和手绘实现。 21 世纪初,传统手绘逐渐被 CG、动作捕捉等技术取代, 虚拟数字人步入探索阶段。该阶段的虚拟数字人开始达到实 用水平,但造价不菲,主要出现在影视娱乐行业,如数字替 身、虚拟偶像等。电影制作中的数字替身一般利用动作捕捉 2020 年虚拟数字人发展白皮书 3 技术,真人演员穿着动作捕捉
8、服装,脸上点上表情捕捉点, 通过摄像机、动作捕捉设备将真人演员的动作、表情采集处 理,经计算机处理后赋予给虚拟角色。2001 年,指环王 中的角色咕噜就是由 CG 技术和动作捕捉技术产生,这些技 术后续还在加勒比海盗、猩球崛起等电影制作中使 用。 2007 年, 日本制作了第一个被广泛认可的虚拟数字人“初 音未来”, 初音未来是二次元风格的少女偶像, 早期的人物形 象 主 要 利 用 CG 技 术 合 成 , 人 物 声 音 采 用 雅 马 哈 的 VOCALOID1系列语音合成,呈现形式还相对粗糙。 近五年,得益于深度学习算法的突破,数字人的制作过 程得到有效简化, 虚拟数字人开始步入正轨,
9、 进入初级阶段。 该时期人工智能成为虚拟数字人不可分割的工具,智能驱动 的数字人开始崭露头角。2018 年,新华社与搜狗联合发布的 “AI合成主播”,可在用户输入新闻文本后,在屏幕展现虚拟 数字人形象并进行新闻播报,且唇形动作能与播报声音实时 同步。 2019 年, 浦发银行和百度共同发布的数字员工“小浦”, 也是利用自然语言处理、语音识别、计算机视觉等人工智能 技术制作的虚拟数字人,可通过移动设备为用户提供“面对 面”的银行业务服务。 当前,虚拟数字人正朝着智能化、便捷化、精细化、多 样化发展,步入成长期。2019 年,美国影视特效公司数字王 1 VOCALOID(日语:)是日本乐器制造商雅
10、马哈公司开发的电子音乐制作语音合成软件。在 软件中输入音调和歌词,就可以合成出原为人类声音的歌声。 2020 年虚拟数字人发展白皮书 4 国软件研发部负责人 Doug Roble 在 TED 演讲时展示了自己 的虚拟数字人“DigiDoug”,可在照片写实级逼真程度的前 提下,进行实时的表情动作捕捉及展现。今年,三星旗下的 STAR Labs在CES国际消费电子展上展出了其虚拟数字人项 目 NEON,NEON 是一种由人工智能所驱动的虚拟人物,拥 有近似真人的形象及逼真的表情动作,具备表达情感和沟通 交流的能力。 (三)(三)当前当前虚拟数字人通用系统框架及运作流程虚拟数字人通用系
11、统框架及运作流程 当前虚拟数字人作为新一代人机交互平台,仍处于发展 期,还未有统一的通用系统框架。本白皮书根据虚拟数字人 的制作技术以及目前市场上提供的数字人服务和产品结构, 总结出虚拟数字人通用系统框架,如图 2 所示。虚拟数字人 系统一般情况下由人物形象、语音生成、动画生成、音视频 合成显示、交互等 5 个模块构成。人物形象人物形象根据人物图形资 源的维度, 可分为 2D 和 3D 两大类, 从外形上又可分为卡通、 拟人、写实、超写实等风格;语音生成模块语音生成模块和动画生成模块动画生成模块 可分别基于文本生成对应的人物语音以及与之相匹配的人 物动画;音视频合成显示模块音视频合成显示模块将
12、语音和动画合成视频,再显 示给用户。交互模块交互模块使数字人具备交互功能,即通过语音语 义识别等智能技术识别用户的意图,并根据用户当前意图决 定数字人后续的语音和动作,驱动人物开启下一轮交互。 2020 年虚拟数字人发展白皮书 5 图 2 虚拟数字人通用系统框架 交互模块为扩展项, 根据其有无, 可将数字人分为交互 型数字人和非交互型数字人。 非交互型数字人体统的运作流 程如图 3 所示。 系统依据目标文本生成对应的人物语音及动 画,并合成音视频呈现给用户。 图 3 非交互类虚拟数字人系统运作流程 交互型数字人根据驱动方式的不同可分为智能驱动型 和真人驱动型。智能驱动型数字人智能驱
13、动型数字人可通过智能系统自动读取 并解析识别外界输入信息,根据解析结果决策数字人后续的 输出文本,然后驱动人物模型生成相应的语音与动作来使数 字人跟用户互动。该人物模型是预先通过AI技术训练得到 2020 年虚拟数字人发展白皮书 6 的,可通过文本驱动生成语音和对应动画,业内将此模型称 为TTSA(Text To Speech & Animation)人物模型。真人驱动真人驱动 型数字人型数字人则是通过真人来驱动数字人,主要原理是真人根据 视频监控系统传来的用户视频,与用户实时语音,同时通过 动作捕捉采集系统将真人的表情、动作呈现在虚拟数字人形 象上,从而与用户进行交互。
14、图 4智能驱动型虚拟数字人运作流程 图 5真人驱动型虚拟数字人运作流程 2020 年虚拟数字人发展白皮书 7 二、虚拟数字人关键技术趋势 (一)虚拟数字人技术架构 当前,虚拟数字人的制作涉及众多技术领域,且制作方 式尚未完全定型,通过对现有虚拟数字人制作中涉及的常用 技术进行调研,本白皮书在虚拟数字人通用系统框架的基础 上提炼出五横两纵的技术架构, 如图 6 所示。 “五横”是指用 于数字人制作、交互的五大技术模块,即人物生成、人物表 达、合成显示、识别感知、分析决策等模块。 其中,人物 表达包括语音生成和动画生成。动画生成则包含驱动(动作 生成)和渲染两大部分。“两纵”是指 2D
15、、3D 数字人,3D 数 字人需要额外使用三维建模技术生成数字形象,信息维度增 加,所需的计算量更大。 图 6 虚拟数字人技术架构 本白皮书重点关注虚拟数字人制作过程涉及的建模、驱 动、渲染三大关键技术。 2020 年虚拟数字人发展白皮书 8 (二)建模建模:静态扫描建模仍为主流静态扫描建模仍为主流,包含人行为动作包含人行为动作 且具有高视觉保真度的动态光场三维重建初见端倪且具有高视觉保真度的动态光场三维重建初见端倪 相机阵列扫描重建替代结构光扫描重建成为人物建模 主流方式。早期的静态建模技术以结构光扫描重建为主。结 构光扫描重建可以实现 0.1 毫米级的扫描重建精度,但其扫 描时
16、间长,一般在 1 秒以上,甚至达到分钟级,对于人体这 类运动目标在友好度和适应性方面都差强人意,因此被更多 的应用于工业生产、检测领域。近年来,拍照式相机阵列扫 描重建得到飞速发展,目前可实现毫秒级高速拍照扫描(高 性能的相机阵列精度可达到亚毫米级),满足数字人扫描重 建需求,成为当前人物建模主流方式。国际上 IR、Ten24 等 公司已经将静态重建技术完全商业化,服务于好莱坞大型影 视数字人制作,国内凌云光等公司制作的拍照式人体扫描系 统也已经在电影、游戏、虚拟主播项目中成功应用。 相比静态重建技术,动态光场重建不仅可以重建人物的 几何模型,还可一次性获取动态的人物模型数据,并高品质 重现不
17、同视角下观看人体的光影效果,成为数字人建模重点 发展方向。动态光场重建是目前世界上最新的深度扫描技 术,此技术可忽略材质,直接采集三维世界的光线,然后实 时渲染出真实的动态表演者模型,它主要包含人体动态三维 重建和光场成像两部分。人体动态三维重建一直是计算机视 觉、计算机图形学等领域研究的重点,主要采用摄像机阵列 2020 年虚拟数字人发展白皮书 9 采集动态数据,可重建高低频几何、纹理、材质、三维运动 信息。光场成像是计算摄像学领域一项新兴技术,它不同于 现有仅展示物体表面光照情况的 2D 光线地图,光场可以存 储空间中所有光线的方向和角度,从而产出场景中所有表面 的反射和阴影,
18、这为人体三维重建提供了更加丰富的图像信 息。近年来 Mirosoft、Google、Intel、Facebook 等公司都在 积极展开相关研究,其中 Microsoft 的 108 摄像机 MRstudio 已经在全球各大洲均有建设; Google 的 Relightable 系统将结 构光、动态建模、重光照技术集成到一起,在一套系统中包 含模型重建、动作重建、光照重建的全部功能;国内清华大 学、商汤科技、华为等也展开了相关研究,并取得国际水平 的同步进展。 (三)(三)驱动驱动:智能合成智能合成、动作捕捉迁移成为数字人目前动作捕捉迁移成为数字人目前 主流的动作生产方式主流的动作生产方式 2D
19、、3D 数字人均已实现嘴型动作的智能合成,其他身 体部位的动作目前还只支持录播。2D、3D 数字人嘴型动作 智能合成的底层逻辑是类似的, 都是建立输入文本到输出音 频与输出视觉信息的关联映射, 主要是对已采集到的文本到 语音和嘴型视频(2D)/嘴型动画(3D)的数据进行模型训 练, 得到一个输入任意文本都可以驱动嘴型的模型, 再通过 模型智能合成。然而,2D 视频和 3D 嘴型动画底层的数学 表达不一样,2D 视频是像素表达;3D 嘴型动画是 3D 模型 2020 年虚拟数字人发展白皮书 10 对应的 BlendShape 的向量表达。除了嘴型之外的动作,包 含眨眼、 微点头、 挑
20、眉等动画目前都是通过采用一种随机策 略或某个脚本策略将预录好的视频/3D 动作进行循环播放 来实现。 例如 3D 肢体动作目前就是通过在某个位置触发这 个预录好的肢体动作数据得到。 触发策略是通过人手动配置 得到的,未来希望通过智能分析文本,学习人类的表达,实 现自动配置。 截至目前, 国内外科技企业在数字人动作智能 合成方面都有一定进展, 国际上如 Reallusion 公司研究的利 用语音生成面部表情的 Craytalk 技术已在动画制作中被成 功商用, 国内搜狗、 相芯科技等公司也有部分项目落地应用。 通过将捕捉采集的动作迁移至数字人是目前3D数字人 动作生成的主要方式, 核心技术是动作
21、捕捉。 动作捕捉技术 按照实现方式的不同,可分为光学式、惯性式、电磁式及基 于计算机视觉的动作捕捉等。 现阶段, 光学式和惯性式动作 捕捉占据主导地位, 基于计算机视觉的动作捕捉成为聚焦热 点。光学动作捕捉光学动作捕捉通过对目标上特定光点的监视和跟踪来 完成运动捕捉的任务。最常用的是基于 Marker(马克点) 的光学动作捕捉, 即在演员身上粘贴能够反射红外光的马克 点, 通过摄像头对反光马克点的追踪, 来对演员的动作进行 捕捉。这种方式对动作的捕捉精度高,但对环境要求也高, 并且造价高昂。光学式解决方案比较出名的企业有英国的 Vicon,美国的 OptiTrack 和魔神(MotionAna
22、lysis),国内 2020 年虚拟数字人发展白皮书 11 的 Nokov、uSens、青瞳视觉等。惯性动作捕捉惯性动作捕捉主要是基于 惯性测量单元(Inertial Measurement Unit,IMU)来完成对 人体动作的捕捉, 即把集成了加速度计、 陀螺仪和磁力计的 IMU 绑在人体的特定骨骼节点上,通过算法对测量数值进 行计算, 从而完成动作捕捉。 这种惯性动作捕捉方案价格相 对低廉, 但精度较低, 会随着连续使用时间的增加产生累积 误差, 发生位置漂移。 惯性式动捕方案的代表性企业有荷兰 的 Xsens,以及国内的诺亦腾(Noitom)、幻境、国承万通 等。基于计算机
23、视觉的动作捕捉基于计算机视觉的动作捕捉主要是通过采集及计算深 度信息来完成对动作的捕捉, 是近些年才兴起的技术。 这种 视觉动捕方式因其简单、易用、低价,已成为目前使用的频 率较高的动作捕捉方案,代表性产品有 Leap Motion、微软 Kinect 等。以上动捕方案的性能对比如表 1 所示。 表 1 主流动作捕捉方案性能对比 方案方案精度精度抗遮挡抗遮挡对环境要求对环境要求硬件成本硬件成本算法开发难度算法开发难度应用公司应用公司 光学捕捉光学捕捉高低高高中 Vicon、 OptiTrack 惯性捕捉惯性捕捉低高低中低 Xsens、 Noitom 视觉捕捉视觉捕捉低低低低高 Leap Mot
24、ion、 微 软 Kinect (四)(四)渲染渲染:随着硬件能力的提升和算法的突破随着硬件能力的提升和算法的突破,真实真实 性和实时性均大幅提升性和实时性均大幅提升 PBR (Physically Based Rendering, 基于物理的渲染技术) 2020 年虚拟数字人发展白皮书 12 渲染技术的进步以及重光照等新型渲染技术的出现使数字 人皮肤纹理变得真实,突破了恐怖谷效应。恐怖谷效应由日 本机器人专家森政弘提出,认为人们对机器人的亲和度随着 其仿真程度增加而增高,但当达到一个较高的临界点时,亲 和度会突然跌入谷底,产生排斥、恐惧和困惑等负面心理。 数字人恐怖谷效应主要由数
25、字人外表、表情动作上与真人的 差异带来,其中外表真实感的关键就是皮肤材质的真实感, 无论是塑料感还是蜡像感都会给人类带来不适。 在 PBR 技术 出现之前,限于相关软硬件的发展程度,所有的 3D 渲染引 擎,更多的着重在于实现 3D 效果,在真实感体现方面差强 人意。PBR 是基于真实物理世界的成像规律模拟的一类渲染 技术的集合,它的关键在于微表面模型和能量守恒计算,通 过更真实的反映模型表面反射光线和折射光线的强弱,使得 渲染效果突破了塑料感。目前常见的几款 3D 引擎,如 UnrealEngine 4, CryEngine 3, Unity 3D 5,均有了各自的 PBR 实现。重光照技术
26、重光照技术通过采集模拟多种光照条件的图像数据, 测算数字人表面光照反射特性,并合成出数字人模型在新的 光照下的渲染结果,使计算机中的虚拟数字人在任意虚拟环 境下都可以呈现近乎真实的效果,它彻底改变了传统渲染方 式通过模拟皮肤复杂的透射反射来计算渲染总会带来误差 的局面。该技术在 2000 年初由南加州大学实验室创建 LightStage 平台时提出, 并开始了相关研究, 目前已经经过 7 代的迭代发展,已被成功应用到阿凡达、 复仇者联盟 等众多经典影片的角色制作中。国内清华大学、浙江大学也 2020 年虚拟数字人发展白皮书 13 都建设了重光照系统,可以实现高精度人体光照采集与重
27、建。 实时渲染技术的突破助力写实类数字人实现实时交互, 应用范围快速扩大。实时渲染指图形数据的实时计算与输 出, 其每一帧都是针对当时实际的环境光源、 相机位置和材 质参数计算出来的图像。 与离线渲染相比, 实时渲染面临较 大挑战。 一是渲染时长短, 实时渲染每秒至少要渲染 30 帧, 即在 33 毫秒内完成一帧画面渲染,离线渲染则可以花费数 小时甚至更长时间渲染一帧画面; 二是计算资源有限, 实时 渲染受限于时效要求, 计算资源一般是不能及时调整, 而离 线渲染受时效限制较低, 可临时调配更多的计算资源。 早期 的实时渲染只能选择高度抽象和简化过的渲染算法, 牺牲了 画面质量。随着硬件能力的
28、提升和算法的突破,渲染速度、 渲染效果的真实度、 渲染画面的分辨率均大幅提升, 在虚拟 人物实时渲染方面,已经能做到以假乱真。2016 年,Epic Games 联合 3Lateral、Cubic Motion、Ninja Theory 等公司联 合开发的可实时驱动的虚拟人物在当年的 Siggraph (Special Interest Group for Computer GRAPHICS,计算机图形图像特 别兴趣小组, 致力于推广和发展计算机绘图和动画制作的软 硬件技术) 会议中做了演示, 成功在消费级的硬件环境下实 时渲染了高质量的虚拟角色。2018 年 5 月,腾讯发布虚拟 人 Sir
29、en,也一个支持实时渲染的虚拟人物。 2020 年虚拟数字人发展白皮书 14 表 2 离线渲染与实时渲染对比 渲染方式渲染方式渲染时间渲染时间计算资源计算资源渲染质量渲染质量 离线渲染离线渲染长多高 实时渲染实时渲染短少欠佳 三、虚拟数字人产业应用现状 (一)(一)虚拟数字人产业视图虚拟数字人产业视图 当前虚拟数字人理论和技术日益成熟,应用范围不断扩 大,产业正在逐步形成、不断丰富 ,相应的商业模式也在 持续演进和多元化。虚拟数字人的产业链从上到下可以分为 基础层、平台层和应用层,如图 7 所示。 图 7 虚拟数字人产业视图 (1)基础层 基础层为虚拟数字人提供基础软硬件支撑, 硬
30、件包括显 示设备、光学器件、传感器、芯片等,基础软件包括建模软 件、渲染引擎。显示设备显示设备是数字人的载体,既包括手机、 2020 年虚拟数字人发展白皮书 15 电视、投影、LED 显示等 2D 显示设备,也包括裸眼立体、 AR、VR 等 3D 显示设备。光学器件光学器件用于视觉传感器、用户 显示器的制作。 传感器传感器用于数字人原始数据及用户数据的采 集。芯片芯片用于传感器数据预处理和数字人模型渲染、AI 计 算。建模软件建模软件能够对虚拟数字人的人体、衣物进行三维建 模。渲染引擎渲染引擎能够对灯光、毛发、衣物等进行渲染,主流 引擎包括 UnityTechnologies 公司
31、的 Unity 3D、 Epic Games 公司的 Unreal Engine 等。总体来看,处于基础层的厂商已 经深耕行业多年,已经形成了较为深厚的技术壁垒。 (2)平台层 平台层包括软硬件系统、生产技术服务平台、AI 能力平 台,为虚拟数字人的制作及开发提供技术能力。建模系统和 动作捕捉系统通过产业链上游的传感器、光学器件等硬件获 取真人/实物的各类信息,利用软件算法实现对人物的建模、 动作的重现;渲染平台用于模型的云端渲染。解决方案平台 基于自身技术能力为广大客户提供数字人解决方案。 AI 能力 平台提供计算机视觉、智能语音、自然语言处理技术能力。 平台层汇聚的企业较多,腾讯、百度、搜
32、狗、魔珐科技、相 芯科技均有提供相应数字人技术服务平台。 (3)应用层 应用层是指虚拟数字人技术结合实际应用场景领域,切 入各类,形成行业应用解决方案,赋能行业领域。按照应用 2020 年虚拟数字人发展白皮书 16 场景或行业的不同, 已经出现了娱乐型数字人 (如虚拟主播、 虚拟偶像)、教育型数字人(如虚拟教师)、助手型数字人 (如虚拟客服、虚拟导游、智能助手)、影视数字人(如替 身演员或虚拟演员)等。不同外形、不同功能的虚拟数字人 赋能影视、传媒、游戏、金融、文旅等领域,根据需求为用 户提供定制化服务。 (二)(二)虚拟数字人重点领域应用环境及典型应用案例虚拟数字人重点领域应用环
33、境及典型应用案例 分析分析 虚拟数字人应用给传统领域带来变革。通过虚拟数字人 产品与生产生活相融合,其规模化、可定制化、可复制化的 能力能够推动改善传统环节流程、提升效能、降低成本等, 大幅提升业务体验, 给传统领域带来变革。 典型的应用领域、 场景及充当的角色如表 3 所示。 表 3 虚拟数字人应用领域、场景及角色 领域场景角色 泛娱乐影视数字替身特效可以帮助导演实现现实拍摄中 无法表现的内容和效果, 已成为特效商业大片 拍摄中的重要技术手段和卖点。 数字替身 传媒定制化虚拟主持人/主播/偶像,支持从音频/文 本内容一键生成视频,实现节目内容快速、自 动化生产,打造品牌特有 IP 形象,实现
34、观众 互动,优化观看体验。 虚拟主持人 虚拟主播 虚拟偶像 游戏越来越真实的数字人游戏角色使游戏者有了 更强的代入感,可玩性变得更强。 数字角色 金融通过智能理财顾问、智能客服等角色,实现以 客户为中心的、智能高效的人性化服务。 智能客服 智能理财顾问 文旅博物馆、科技馆、主题乐园、名人故居等虚拟 小剧场、虚拟导游、虚拟讲解员。 虚拟导游 虚拟讲解员 教育基于 VR/AR 的场景式教育,虚拟导师帮助构虚拟导师 2020 年虚拟数字人发展白皮书 17 建自适应/个性化学习环境。 医疗以数字人实现家庭陪护/家庭医生/心理咨询, 实时关注家庭成员身心健康, 并及时提供应对 建议。 心理医
35、生 家庭医生 零售从大屏到机器人到全息空间,从数据分析、个 性营销、智能货架、无人商店四大应用场景切 入构建线下零售服务新流程。 电商直播在虚拟 数字人与真人主播和观众互动,介绍商品。 顾客服务数字 人 商家管理数字 人 虚拟主播 (1)虚拟数字人+影视 特效电影广受市场认可,扶持政策的密集出台,以数字 替身为代表的虚拟数字人+影视类的产品应用正在展现广阔 的市场前景。影视是对视觉效果的要求最高且最大程度影响 社会对数字人形象认知、品牌的一个领域。近年来中国影视 数字人特效取得快速发展,部分特效大片获得市场认可。 2019 年中国影视票房收入超过 640 亿级别,连续多年增长 8%左右, 其中
36、特效电影约占 10%。 国家对于影视特效的发展 十分重视,先后出台了一系列相关扶持政策。2019 年,科技 部、文化部联合六部委发布关于促进文化和科技深度融合 的指导意见,提出加强激光放映、虚拟现实、光学捕捉、 影视摄录、高清制播、图像编辑等高端文化装备自主研发及 产业化。2020 年,国家电影局关于促进科幻电影发展的若 干意见,提出以科幻电影特效技术发展引领带动电影特效 水平整体提升,并要落实财税支持政策,同时对入驻影视文 化基地的科技企业进行租金减免。于 2019 年 2 月 22 日在中 国内地上映的阿丽塔:战斗天使是虚拟数字人技术与影 2020 年虚拟数字人发展白皮书 18
37、 视相结合的典型应用案例之一。剧中的女主角阿丽塔是一位 完全采用数字人技术制作的角色。该电影通过采用特殊的面 部捕捉仪器对真人演员人脸细节进行精准捕捉,然后将其作 为电脑中虚拟角色的运动依据,使虚拟角色的动作和表情能 像真人一样自然逼真。 数据来源:国家电影局 图 8 2013-2019 中国电影票房收入增长趋势 数据来源:国家电影事业发展专项资金管理委员会办公室 图 9 中国内地电影票房总收入 TOP10 (2)虚拟数字人+传媒 2020 年虚拟数字人发展白皮书 19 以虚拟主播为代表传媒行业应用很好的满足了媒体传 播领域对内容生成方面的业务需求,成为了融媒体时代的传 媒利器。据
38、前瞻产业研究院统计,2019 年中国视频直播行业 收入达到 1082 亿人民币,全国有 3.9 亿人在关注虚拟偶像, 其中最大的二次元活动社区B站月活用户达 1140 万,虚拟主 播占直播营收 40%。同期,B站、虎牙等大型直播平台也都 开启了线上、线下虚拟主播活动。如Bilibili Macro Link系列 活动VR直播观看如数达到 660 万,10 万级的“up主”(指在 视频网站、论坛、FTP站点上传视频音频文件的人)就可以 达到 100 万级真人主播的应收。此外,在传统媒体领域,以 虚拟主持人为代表的数字人应用也开始进入公众视野。在 2019 年央视网络春晚舞台上, 以撒贝宁为原型制
39、作的AI虚拟 主持人“小小撒”首次上岗与原型同台秀技。这也是国内第一 次人类主持人和自己的虚拟孪生数字人共同主持大规模的 国家级文化活动,引起了业界及网民的强烈关注。 (3)虚拟数字人+游戏 游戏市场日趋激烈,对于精品的需求日益增长,或是虚 拟数字人技术在该领域落地的福音。 2019 年游戏市场规模达 到 2300 亿, 其中与数字人相关度较大的RPG类游戏约占 30% 的份额。我国国内游戏监管环境和游戏版号审批政策仍旧趋 严,游戏用户数相比 2018 年仅增加 0.1 亿,市场竞争日趋激 烈,对于精品的需求越来越高。虚拟数字人技术则能够有效 2020 年虚拟数字人发展白皮书 20
40、 简化和加快游戏动画制作过程,可以在有限成本的情况下让 游戏中更多的虚拟角色都具备丰富的肢体动作和精细的面 部表情,给玩家带来更沉浸的游戏体验。例如网易伏羲实验 室成功将虚拟数字人技术应用到逆水寒等多个游戏剧情 动画场景制作中,在无手工参与下,快速生成动画,这使得 大量的虚拟角色都能富有视觉的表达能力。 数据来源:中国音像与数字出版协会游戏出版工作委员会 图 10 2015-2019 中国游戏市场实际销售收入 (4)虚拟数字人+金融 虚拟数字人能够有效助力金融机构实现“降本增效”,各 大金融巨头争相布局“数字员工”。运用金融科技实现“降本 增效”应对市场竞争成为金融行业发展共识,以科技为核心
41、的竞争导向,带来了金融机构信息科技投入的逐年增加。据 轻金融统计,2019 年,16 家全国性银行科技总投入超千亿, 总计1034.1亿元。 其中工农中建四大行投入均超过100亿元, 建行投入最高,达到 176.33 亿元。虚拟数字人拥有拟人的表 情动作,可进行智能对话,能够与服务类场景较多的金融行 业天然结合。多家金融机构正利用虚拟数字人技术打造“数 2020 年虚拟数字人发展白皮书 21 字员工”,成为了科技创新、降本增效的重要方向。以中国 工商银行为例,其推出的数字人银行员工,在移动终端和大 屏等媒介上展现数字拟态形象,能够在产品营销讲解、金融 业务办理、资讯播报、咨询问答等
42、多个业务场景,实现与用 户的可视化交互,为用户带来个性化服务,有效解除用户顾 虑,提升用户体验和驻留时间,真正让数字化服务“听得见” 的同时也“看得见”。 图 11 部分国际领先金融机构信息技术投入金额与增速 数据来源:轻金融 图 12 全国性科技总投入与占营收比重 2020 年虚拟数字人发展白皮书 22 (5)虚拟数字人+文旅 数字文旅产业表现突出,以虚拟讲解员为代表的虚拟数 字人应用或为其贡献蓬勃力量。据中国旅游研究院统计, 2019 年前三季度,文旅营业收入 62187 亿元,比上年同期增 长 7.6%,特别是数字文旅产业表现突出,成为文旅产业转型 升级的重要引擎。数字文化内
43、容与互联网旅游、智慧旅游、 虚拟旅游等新模式联动发展,特别是疫情期间得到不断增 长。目前,虚拟数字人在文旅领域暂时还没有落地产品,但 相关概念产品已经开始映入公众眼帘。 例如商汤科技在 2020 世界人工智能大会(WAIC)上展示的AI数字人“小糖”。“小 糖”可依托于展台前的滑动屏幕, 为观众介绍和讲述预先设定 好的讲解内容。虚拟数字人带来的全新展示方式和讲解模 式,在帮助文旅场馆解决人力不足问题的同时,更凭借其智 能化、电子化和展示效果多样化的特性,为文旅行业的未来 带来更多可能性。 数据来源:中国旅游研究院 图 13 2012-2019 全国国内旅游人数 2020 年虚拟数字
44、人发展白皮书 23 四、虚拟数字人发展趋势、制约因素及建议 (一)(一)虚拟数字人未来发展趋势虚拟数字人未来发展趋势 虚拟数字人的采集、制作流程逐步简单化、一体化,迭 代式提升真实感。未来数字人的制作技术将会变得更加简 单,会有更加一体化、自动化的设备同步获取模型、身体、 表情、手指运动、声音等所有数据,无需穿戴专业传感设备。 在特定的环境下人们甚至无法分辨数字人的真假,可以更加 自然与数字人交流互动。 虚拟数字人的交互方式衍变,智能化程度不断加深。全 双工技术将推进数字人的交互方式衍变,让数字人拥有一次 唤醒、多次交互的能力,具备实时智能响应、智能打断、智 能纠错、多轮对话等功能。另外,随着
45、计算机视觉、语音和 自然语言处理等人工智能技术的不断进步,虚拟数字人将逐 渐具备“看”、“听”、“说”、“懂”的能力。 虚拟数字人逐渐实现在多场景、多领域的融合、应用、 落地。尽管目前数字人的发展环境、整体情况还处于尚未成 熟的起步阶段,但随着虚拟数字人技术的精进、市场价值的 释放,其将更全面、更深入地融入影视、金融、文旅等各个 领域,充分发挥应用价值,迸发巨大的潜力。 (二)(二)虚拟数字人发展制约因素虚拟数字人发展制约因素 目前,制约虚拟数字人产业发展的因素主要有以下几个 方面。 2020 年虚拟数字人发展白皮书 24 政策环境层面,行业依然处于培育期,缺乏政策与资本 扶持。 一是缺少上下游协作交流平台, 制约整体产业化发展。 虚拟数字人产业链长,参与主体多,既有大型平台企业、也 有中小单位和初创公司,行业沟通成本高。二是行业投资回 报周期较长,为数字人产业投资竖立了“无形壁垒”。数字人 产业还不完全成熟,投资回报周期较传统技术应用更长,缺 乏长期耐心资本来扶持企业成长。由于缺乏资本力量的推 动,各产业规模扩张与资源整合的进程相对滞后。 技术应用层面,制作方式自动化程度低、生产门槛高, 关键技术还不够完全成熟。目前 3D 数字人建模依然需要大 量的人工制作参与,整体制作效率相对较低,与部分应用场 景快速、批量制作的需求并不匹