当前位置:首页 >英文主页 >中英对照 > 中译版报告详情

智谱:GLM-4-Voice技术报告(中译版)(14页).pdf

上传人: 淘*** 编号:650882 2025-04-07 14页 591.72KB

下载:
word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文介绍了GLM-4-Voice,一种智能且类人的端到端语音聊天机器人。它支持中英双语,能够实时进行语音对话,并根据用户指令变化语音的细微差别,如情感、语调、语速和方言。GLM-4-Voice使用一种超低比特率(175bps)、单代码本语音令牌化方法,该方法由自动语音识别(ASR)模型派生,并在编码器中结合了向量量化瓶颈。为了高效地将文本知识转移到语音模式,我们使用文本到令牌模型从现有的文本预训练语料中合成语音文本交织数据。我们继续从预训练的文本语言模型GLM-4-9B开始,结合无监督语音数据、交织语音文本数据和监督语音文本数据进行预训练,扩展到1万亿令牌,在语音语言建模和语音问答任务上都取得了最先进的性能。然后,我们使用高质量的会话语音数据微调预训练模型,在会话能力和语音质量方面都优于现有基线。
"如何实现语音与文本的端到端建模?" "如何通过大规模预训练提升语音交互能力?" "如何设计高效的语音编码器以实现低延迟交互?"
客服
商务合作
小程序
服务号
折叠