《3-6 火山引擎虚拟数字人技术与应用.pdf》由会员分享,可在线阅读,更多相关《3-6 火山引擎虚拟数字人技术与应用.pdf(35页珍藏版)》请在三个皮匠报告上搜索。
1、火山引擎虚拟数字人技术与应用|樊博 字节跳动AI-Lab智能语音 算法研究员|提纲火山引擎虚拟数字人简介2D数字人技术体系3D数字人技术体系火山引擎虚拟数字人应用火山引擎虚拟数字人展望|提纲火山引擎虚拟数字人简介2D数字人技术体系3D数字人技术体系火山引擎虚拟数字人应用火山引擎虚拟数字人展望|火山引擎虚拟数字人火山引擎虚拟数字人是以虚拟数字人形式代替真人员工和客户沟通,提供可视化、智能化的交互服务,为企业提供高度拟人化的服务型数字员工。聆听表达交互感知 语音增强 语音识别 声纹识别 语种识别 语音合成 跨语言合成 多方言合成 语音变声 自然语音理解 机器翻译 问答系统 活体检测 人脸识别 情感
2、识别 虚拟数字人数字化外表,多模态技术通过不同媒介存在于虚拟世界行为、技能高度拟人化|火山引擎虚拟数字人数字人AI驱动中之人驱动播报交互感知2D数字人3D数字人|火山引擎虚拟数字人2D真人3D卡通&超写实|提纲火山引擎虚拟数字人简介2D数字人技术体系3D数字人技术体系火山引擎虚拟数字人应用火山引擎虚拟数字人展望|2D数字人技术体系文本/语音驱动唇形身份/表情/姿态拟合虚拟人脸换脸人脸编辑人脸美化人脸恢复五官改变关键点检测换头动作生成动作预测虚拟试穿人体姿态估计面部生成头部口型修正人脸分割人脸转正可控头动驱动算法定制化肢体动作切换驱动算法应用系统抠图图像和谐化头身拼接图像超分图像着色图像修复去反
3、光工具功能成熟迭代探索|文本/语音驱动数字人整体流程文本/语音特征提取语义特征提取NN文本特征提取时长模型TTS面部生成肢体生成训练阶段NN训练集音频训练集视频驱动阶段视频流|语义特征提取训练集视频身份/表情/姿态拟合人脸归一化特征点检测人脸特征点身份表情姿态语义特征|多语种数字人单语种多语种主播仅需录制单一语种音视频,即可实现数字人多语种表达!|多语种数字人技术方案目标语种参考音色信息无监督特征提取语义特征提取NN文本特征提取时长预测跨语言合成面部生成肢体生成训练阶段NN训练集音频训练集视频驱动阶段解码器无监督特征视频流目标音色信息无监督特征不包含音色信息|多语种数字人效果、感染急速拡大。Y
4、our torso ninety degrees angle.Nanti kalau kamu tidur,percayalah aku sedangmengucapkan selamat tidur dari jauh.Kamunggak akan denger,kata Dilan saat melaluisambungan telpon.Com uma rea de 130 km2,o Parque Nacional de Aparados da Serra uma tima pedida para quem gosta de ter um contato com a natureza.
5、英语日语巴葡印尼语|多方言数字人效果小汽车朝他发出了嘀嘀的声音,那人心想,你们在那嘀咕什么呢?我们楼脚开了家新的便利店。这个巨好喝的连咖啡现在嘎嘎合适,打开盖子直接放入90度的水,你看看这咖啡的油脂都出来了,倒在冰水里就是冰美式,倒在奶里就是拿铁。加啲放肆,加啲创意,一身充满少壮傲气,想痛快抉择搏一次,不过我确实冇胆试重庆话东北话粤语广西普通话|数字人交互播报交互整合多模态AI技术,实现数字人从播报到交互的升级!|数字人交互系统语音识别问答系统语义理解是否打断状态机表达聆听休闲打断动作插入播报对话内容动作标签状态类型理解决策信号|数字人定制化1N对头部进行定制化,规避版权的同时完成成熟能力的复
6、制!|数字人定制化-换脸虚拟人脸生成目标人脸ID提取编码ID注入解码人种、年龄、类型等描述|2D数字人核心优势高并发功能全面低成本效果优良 T4单卡20核CPU下1080p/25fps视频流支持10路并发 支持公有云接口调用及私有化部署 支持打断以及通过SSML的形式插入动作 支持任意背景更换 支持音色切换,多语种,多方言 整体自然度MOS评测可达3.9 唇形准确率高达98.6%5min数据即可完成基本定制 自动化平台支持自动化训练及上线|提纲火山引擎虚拟数字人简介2D数字人技术体系3D数字人技术体系火山引擎虚拟数