当前位置:首页 > 报告详情

孙豪泽-Baichuan-Omni-1.5:百川智能在端到端多模态大模型的实践探索.pdf

上传人: 哆哆 编号:631147 2025-04-19 43页 20.40MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了百川智能在端到端多模态大模型的实践探索。主要内容包括: 1. Baichuan Audio模型:这是一种端到端的大规模音频语言模型,可以同时生成文本和音频标记。该模型由Baichuan-Audio Tokenizer、音频语言模型和基于流匹配的音频解码器三个基础组件组成。 2. 音频预训练数据:包括音频文本交替数据(INTLV)和交替文本到语音数据(ITTS)。这些数据通过分号分隔的文本和音频模态,以促进跨模态知识转移。 3. Baichuan Omni-1.5全模态模型:该模型将视觉分支和音频分支统一在自回归语言模型的范式中。视觉分支使用NaViT编码器处理图像/视频输入,音频分支则使用Baichuan Audio模型。 4. 未来展望:提出了统一理解和生成的图像标记器方法,通过引入分离的RVQ码本和多目标损失,试图解决直接在单个标记器中结合重建和语义目标带来的冲突问题。 5. 实验结果:Baichuan Audio模型在语音理解、生成任务上表现出色,Baichuan Omni-1.5全模态模型在文本能力、图像/视频理解、语音理解和生成效果上取得了最佳平衡。
百川智能如何解决语音模型的“智能退化”问题? Baichuan Audio Tokenizer在音频处理中如何平衡语义和声学信息? Baichuan-Omni-1.5全模态模型在多模态预训练数据方面有哪些创新?
客服
商务合作
小程序
服务号
折叠