《8-1 基于多模态大模型的人机对话.pdf》由会员分享,可在线阅读,更多相关《8-1 基于多模态大模型的人机对话.pdf(35页珍藏版)》请在三个皮匠报告上搜索。
1、基于多模态大模型的人机对话王金桥 研究员 博导中科院自动化所紫东太初大模型中心常务副主任武汉人工智能研究院院长中科视语科技有限公司董事长数字人市场与机会虚拟偶像虚拟KOL虚拟演员虚拟主持人虚拟主播虚拟代言人虚拟客服虚拟导游虚拟专家虚拟讲解未来随着智能化水平提升成本下降元宇宙基础设施超级助手情感陪护使用目的使用目的IP影响力/粉丝经济替代真人服务/降本成效人性化陪伴/智能化服务数字人存在的问题成本高昂数十万至百万的制作成本,大部分企业无法承担生产周期长达数月,生产流程导致无法稳定持续输出无法互动静态超现实数字人偶像,用于图文媒体宣传形象动不起来,无法输出视频内容,无法互动场景受限大部分制作粗糙,
2、“一眼假”,甚至无法接近“恐怖谷”解决现实问题有限,用于简单客服场景,商业价值不高动漫形象应用领域受限,无法比拟真人效果数字人技术发展路线以GAN+NeRF为底层技术,实现数字人快速批量生成、驱动与互动,帮助用户完成数字人自动化AIGC原画CG建模BlendShape细节渲染表情动画灯光与合成面捕须发模拟CG低模传统CG AIGC 属性信息GANNeRF用户偏好数字人技术发展路线 价值格局对比:运营优势:时间 3个月成本 40W低自然度低复原度无法批量时间 3周成本 10W真人效果多种风格批量生产IP传统CG模式AIGC数字人传统主播艺人比较项A.I.G.C数字人招募/培养困难获得难度自由设计
3、,自由制造跳槽/要价,个人风险高稳定性永久专属,无私人风险能力单一能力增加替身,能力丰富生产力有限生产力增加替身,无限生产力数字人技术概述 数字人创造与编辑 CG创造 A.I.G.C创造 数字人驱动 中职人驱动 无中职人驱动形状表情姿态数字人创造与编辑-CG创造 基于传统计算机图形技术:三维建模-纹理贴图-渲染建模纹理贴图渲染优点:手工设计,可控性强缺点:成本高,周期长,工序复杂 全姿态的三维人脸重建方法难点:传统方法依赖关键点,大姿态下失效创新:提出由图像直接重建三维模型的级联网络,避免了关键点的依赖通过投影坐标编码使得模型输入反馈了上一级输出结果,保证了级联操作的可行性,逐步简化了任务,解
4、决了大姿态中表观变化剧烈的问题参数更新量投影坐标编码(三维表示)输入图片数字人创造与编辑-CG创造 拟合效果图数字人创造与编辑-CG创造数字人创造与编辑-A.I.G.C创造 A.I.G.C即通过人工智能技术自动生成图像内容随机种子StyleGAN生成对抗网络海量虚拟人像优点:深度网络自动生成,成本低,效率高缺点:网络可解释性不够强,依赖于海量训练数据,可控性弱数字人创造与编辑-A.I.G.C创造 AIGC图像编辑带有原始人像特征的迪士尼风格 根据参数控制风格化程度,从超写实到卡通平滑过渡,无需手工调整,效率高卡通风格化程度弱强数字人创造与编辑-A.I.G.C创造数字人驱动 中职人驱动人脸替换面
5、部捕捉 无中职人驱动Talking headTTSAA.I.G.C图像生成CG图形学渲染数字人驱动-中职人驱动(CG)面部捕捉演示效果Facegood面部捕捉系统为了保证精度一般需要穿戴设备,对用户不友好目标人脸B身份信息动态属性人脸替换技术框架源人脸A生成人脸OEncoderEncoderFace StructuringFace Structuring数字人驱动-中职人驱动(A.I.G.C)Decoder 人脸替换演示效果优点:表情姿态自然度高缺点:需要真人演员背后扮演数字人驱动-中职人驱动(A.I.G.C)Talking-head(文字/语音信息驱动)技术框架数字人驱动-无中职人驱动(A.
6、I.G.C)三维重建系统姿态和身份“军人应当服从政府”输入文本合成音频(TTS)Transformer嘴型序列神经渲染系统输出视频同步说话人风格基于全姿态三维理解的大角度换脸提出了全姿态三维理解和全息重建方法,解决传统关键点方法在大姿态下失效的问题提出了基于自注意力机制的时空融合网络模型,保障了视频中复杂表情和动作连续性身份深度特征纹理映射输出图片反向传播优化纹理描述表情三维理解全姿态三维理解人脸3D拟合效果 拟合效果图应用场景:单图三维驱动的塑造合成主播 视频驱动:将视频人脸表情迁移到目标人脸上,完成驱动数字人驱动-无中职人驱动(A.I.G.C)基于一