当前位置:首页 > 报告详情

朱思语-基于视频生成模型Hallo和Champ的数字人构建.pdf

上传人: 拾亿 编号:751778 2025-07-29 41页 9.09MB

1、基于视频生成模型Hallo和Champ的数字人构建朱思语|复旦大学朱思语复旦大学教授复旦大学人工智能创新与产业研究院研究员、长聘教授及博士生导师,研究方向为视频与三维生成模型。在CVPR、ICCV、ECCV、PAMI等国际会议和期刊上发表论文60余篇。博士期间,他联合创立了3D视觉公司Altizure,后被苹果公司收购。2017年至2023年,他担任阿里云人工智能实验室总监。他曾任ICCV/AAAI领域主席/程序委员会成员,荣获中国计算机学会杰出工程师奖。目 录CONTENTSI.数字人的产业背景II.数字人的技术难点III.数字人的整体方案IV.数字人的技术实践V.总结与展望数字人:生成式应

2、用爆发数字人:生成式应用爆发数字人:生成式应用爆发数字人:生成式应用爆发数字人:主流技术方案VAE:maximize variational lower boundInputOutput生成式模型的定义人工智能的关键概念Video Diffusion models 视频生成模型的快速发展Video Auto-regressive modelsLatent Space DiffusionDiffusion through Transformer Controllable video generation is still chanllenging.Can video generation res

3、tore the 3D physical world?Sora:世界模拟器?2025/5/2614 Appearance Geometry Motion&DynamicsThe Bottleneck of Scaling Law Hard to really model the physical word.Failure case in appearance and geometry.The Bottleneck of Scaling Law2025/5/2616 Hard to really model the physical word!Failure case in motion.Con

4、trollable video generation is still chanllenging.Can video generation restore the 3D physical world?Sora:世界模拟器?2025/5/2617 Appearance Geometry Motion&Dynamics Appearance and corresponding lighting.MCMat:Multiview-Consistent and Physically Accurate PBR Material Generation.外观:纹理和材质 Appearance and corr

5、esponding lighting.MCMat:Multiview-Consistent and Physically Accurate PBR Material Generation.外观:纹理和材质2025/5/2619 Directly Generate Dynamic 3D?Static 3D Generation limited to small.VideoMV:Consistent Multi-View Generation Based on Large Video Generative Model.几何:三维形状2025/5/2620 Directly Generate Dyn

6、amic 3D?Static 3D Generation limited to small.VideoMV:Consistent Multi-View Generation Based on Large Video Generative Model.几何:三维形状 Directly Generate Dynamic 3D?Not to mention 4D generation.ECCV 2024 STAG4D:Spatial-Temporal Anchored Generative 4D Gaussians运动和动画 Directly Generate

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了复旦大学教授朱思语在数字人构建领域的相关研究。朱思语教授专注于视频与三维生成模型,发表了60余篇论文,并曾创立3D视觉公司Altizure,后被苹果公司收购。文章围绕数字人的产业背景、技术难点、整体方案、技术实践以及总结与展望展开。 关键点: 1. 数字人技术:涉及生成式应用爆发、主流技术方案VAE、视频扩散模型等。 2. 技术难点:可控视频生成挑战大,难以真实建模三维物理世界,存在外观、几何、运动与动力学等方面的瓶颈。 3. 解决方案:提出MCMat、VideoMV、STAG4D等模型,以及Champ和Hallo系列方法,通过3D参数化控制和音频驱动实现数字人生成。 4. 未来展望:更多3D物理控制条件对齐,发展Video CoT、Geometry、Appearance & Lighting、Motion & Animation等技术。 文章未提供具体的核心数据。
"数字人创作难点是什么?" "如何用Hallo和Champ生成逼真数字人?" "朱思语教授的哪些研究突破值得关注?"
客服
商务合作
小程序
服务号
折叠