当前位置:首页 > 报告详情

AIGC驱动的3D场景理解及医学图像解析_李镇.pdf

上传人: 张** 编号:153042 2024-01-15 63页 6.42MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据报告的内容,本文主要介绍了香港中文大学(深圳)助理教授李镇博士及其团队在AIGC驱动的3D场景理解及医学图像解析方面的研究成果。主要内容包括: 1. AIGC驱动的3D室内场景稠密描述及视觉定位:通过实例级上下文引用,实现对点云的稠密描述和视觉定位。 2. AIGC驱动的3D高精度的说话人脸驱动及生成:利用语音/文本模态到图像模态的映射,生成与语音内容保持一致的高清说话人脸视频。 3. AIGC驱动的结肠镜图片生成及解析:使用自适应细化扩散模型(ArSDM)生成高质量的结肠镜图像,辅助临床诊断和治疗。 4. 实验结果表明,所提出的模型和方法在3D场景理解、说话人脸生成和医疗图像解析方面取得了显著的性能提升。 5. 未来研究方向包括进一步优化多模态在3D场景的解析与生成、结合video diffusion来强化说话人脸的效果以及结合condition mask来进行医疗图像场景的video diffusion生成。
3D场景理解如何利用AIGC技术? 说话人脸生成技术如何实现? 医疗图像解析如何应用AIGC?
客服
商务合作
小程序
服务号
折叠