《李宇明-EchoMimic_多模态大模型驱动下的生成式数字人技术与应用.pdf》由会员分享,可在线阅读,更多相关《李宇明-EchoMimic_多模态大模型驱动下的生成式数字人技术与应用.pdf(22页珍藏版)》请在三个皮匠报告上搜索。
1、李宇明传统数字人技术介绍生成式数字人技术介绍技术细节与亮点实验结果分析生成式数字人结合大语言模型的实时交互生成式数字人结合音乐生成模型的AI创作生成式数字人结合商品的视频广告生成式数字人存在的问题和挑战生成式数字人开发新范式方法基于GAN的算法。通过对抗训练学习,对人物图像的嘴部进行精准编辑,确保嘴型与输入的语音同步,实现数字人语音播报。基于NeRF的算法。通过构建神经辐射场对数字人进行个性化建模,提升嘴型生成的自然度、匹配度和语音播报个性化水平。优势制作成本低,技术路线短平快。在特定场景下能达到可接受的效果。不足优质的2D数字人应用效果依旧依赖于高水准的素材录制。高质量躯体和手势动作视频生成
2、仍面临挑战。人物动作和嘴型生成的准确性、自然性和灵活性等方面仍有不足。方法AI技术在3D数字人领域的应用主要集中在数字人智能建模和数字人智能驱动两个关键方向。随着3DMM(三维人脸可形变模型)和可微分渲染技术的不断发展,现在可以以极低的成本实现3D数字人的建模和驱动。优势3D数字人相比2D数字人有着更强的交互能力。3D美术建模可以带来的更完美的数字人外貌与人设。不足技术链过长,人物建模、动作驱动、渲染展示等每个环节都有着复杂的技术栈。智能化低成本的建模方式难以保障数字人建模质量,高质量的3D数字人建模依然依赖传统美工3D建模方式。天然不适合需要超高写实人物形象的应用场景。人工智能生成内容(AI
3、GC)技术取得了突破性进展,AI绘画领域创新应用层出不穷。AIGC在视频生成方面也取得了显著成就,为生成式数字人领域带来了崭新的变化。在成本极低的情况下,可以创造出高品质的图像与视频内容。数字人外貌与人设等展示素材均可以用AIGC生成。可以利用语音、动作等对数字人进行相关控制。算法效果天花板比较高。相关技术相对比较新、可参考的优秀工作不多。算法推理成本和时间还比较高。基于语音驱动的半身和全身数字人还没有成熟工作。2025EMO2Omni-HumanHumanDiTDreamActor-M1MoChaStableAnimatorAnimateAnyoneAnimateAnyone(Vision)
4、(Vision)2023.112023.11 阿里阿里 未开源未开源EMO(Audio)EMO(Audio)2024.022024.02 阿里阿里 未开源未开源MimicMotionMimicMotion(Vision)(Vision)2024.062024.06 腾讯腾讯 开源开源EchoMimicV1(EchoMimicV1(Audio+VisionAudio+Vision)2024.072024.07 蚂蚁蚂蚁 开源开源EchoMimicV2(EchoMimicV2(Audio+VisionAudio+Vision)2024.112024.11 蚂蚁蚂蚁 开源开源CyberHostCyb
5、erHost(Audio+VisionAudio+Vision)2024.092024.09 字节字节 未开源未开源EMO2(Audio)EMO2(Audio)2025.012025.01 阿里阿里 未开源未开源OmniHumanOmniHuman(Audio)(Audio)2025.022025.02 字节字节 未开源未开源HumanDiTHumanDiT(Vision)(Vision)2025.022025.02 字节字节 未开源未开源MoChaMoCha(Audio)(Audio)2025.032025.03 MetaMeta 未开源未开源DreamActorDreamActor-M1(
6、Vision)M1(Vision)2025.042025.04 字节字节 未开源未开源EchoMimic是专注于增强2D数字人物驱动效能的算法,用户仅需上传一张数字人或真实人物的图片及一段语音或视频资料,即可生成与之匹配的说话场景视频。该技术在表现效果上接近当前市场上的商业解决方案,且在驱动模式上展现出高度灵活性,支持语音、姿态或二者的组合驱动,为用户带来灵活的定制化体验。项目开源地址:V1版本:https:/ GPU推理耗时对比非加速版-30步加速版本-6 步利用步数蒸馏算