《基于AI语音克隆技术构建低成本车载电台新闻节目实践.pdf》由会员分享,可在线阅读,更多相关《基于AI语音克隆技术构建低成本车载电台新闻节目实践.pdf(21页珍藏版)》请在三个皮匠报告上搜索。
1、严禁未授权复制、印刷、披露或传播该演示文稿基于AI语音克隆技术构建低成本车载电台新闻节目实践2025.04.26Lidong Zeng DA数智大会 中国 上海NIO 页脚2自我介绍曾李栋Lidong Zeng大模型算法组 助理工程师 算法开发及应用Assistant Engineer&LM Algorithm GroupAlgorithm Development and Application 用户数字产品User Digital Product 2024校招加入蔚来语音合成、图片生成、智能机器人NIO 页脚3公司介绍蔚来汽成于2014年11,是端智能电动汽市场的先驱及领跑者。蔚来的使命是创
2、造愉悦的活式。蔚来旨在打造个以智能电动汽为起点的社区,与分享欢乐、共同成。愿景成为技术与体验领先的用户企业。产品 社区 服务 NIO 页脚4目录 1.业务背景 NIO Radio 蔚来电台社区 NIO Radio 新闻&资讯节目 2.业务痛点分析 长链路节目制作 高人力成本 3.方案与优化 基于TTS-VC的节目制作流程 声色采样 优化迭代方案 4.总结与回顾 低成本、高效率 高扩展性基于AI语音克隆技术构建低成本车载电台新闻节目实践NIO 页脚5NIO Radio 蔚来电台社区NIO Radio是蔚来为用户打造的专属声音社区,内容涵盖音乐、资讯、娱乐、知识、本地生活等各大领域。用户不仅可以收
3、获灵感新知与愉悦陪伴,也可以参与共创、成为声音创作者共同成长。NIO 页脚6NIO Radio 新闻&资讯节目高更新频率的27座城市资讯类节目:时效性高、覆盖广、更新快NIO 页脚7城市资讯节目本地化+高频更新=非常高的人力成本NIO 页脚8城市节目制作SOP资讯节目制作存在问题:流程较长,对接、纠错成本高。节目复用率低、成本较高。1.文稿准备2.主持人播读3.审听成本占比40%50%10%NIO 页脚9解决方案新闻采集文稿生成语音生成人工审听节目的最终生成效果决定了是否可以实现替代,通过分阶段实现的方式,逐步代替传统的节目制作流程,低风险地实现减少人力成本投入。阶段一阶段二 通过人工参与的方
4、式,将审听阶段拆解到 语音生成&节目制作的阶段中去,减少了流程节点。NIO 页脚低成本、高效益低成本考量声音克隆框架(TTS-VC)少样本训练。少样本训练。低参数量。生成效果可控(语气、发音)。生成效果可控(语气、发音)。强模型基座。强模型基座。人工评测准确性(发音正确)流畅度(停顿连贯)自然度(与人相似)音色相似度节目制作模块化模板化NIO 页脚TTS语音生成框架使用基于语言模型的VC框架,可以实现快速的音色调整、情感表达。通过一定量样本微调后,可以提高语音合成质量、大量减少领域内 badcase。在音素层面上统一多种总语言,保证中英生成的流畅性。参考音色参考文本;生成文本生成文本音素生成音
5、频声码器声学模型NIO 页脚模块独立优化阶段阶段预处理预处理声学模型声学模型声码器声码器说明文本预处理G2P(Graphene2Phoneme)根据参考音频和文本推理 音频特征还原音频优化方式预训练模型+热词表独立微调独立微调优化依赖文本对应音素(Phoneme)文本&音频-对应音频特征(Hubert)文本&音频特征-对应音频效果依赖发音正确性断句、流畅性音色相似性文本-语音端到端?半流水线方式半流水线方式:1.推理可纠错。2.模块间独立优化。NIO 页脚挑战1生成音频气口解决方案合成音频片段人声结束阶段存在不自然的呼气、吸气声。气口的形成来源于训练数据音频中不正确的分段,将语音起始阶段的吸气
6、声裁剪入上一段音频的末尾。因此结合ASR、人工标注的音频裁剪方式,通过精确裁剪timestamps去除训练样本中的不自然呼吸声。此外,结合使用场景、干音中的气口在经过后续的混音后在车内使用场景中用户感知较小。NIO 页脚挑战2固定词汇错读、误读解决方案2.在音素层面上维护固定的词汇发音表。1.少量(7h)标注样本,对不正确的发音进行修正。NIO 页脚15音色采样不同音色特征向量差异处于版权考虑与播音音色质量要求,可通过文本描述的方式生成初步的参考音频,再通过在特征向量微调的方式进行音色微调。对于差异相近的音色,通过