《声网:2025对话式AI发展白皮书(77页).pdf》由会员分享,可在线阅读,更多相关《声网:2025对话式AI发展白皮书(77页).pdf(77页珍藏版)》请在三个皮匠报告上搜索。
1、 1 对话式对话式 AIAI 发展白皮书发展白皮书 前言前言 对话式对话式 AI AI 开启人机对话的新纪元开启人机对话的新纪元 现实中人与人的沟通以语音为主,视觉其次,视觉的重要性在于信息的丰富度,信息浓度和沟通效率主要靠语音,而在生成式 AI 的浪潮下,人与 AI 的交互中亦是如此。从图灵测试到生成式 AI 爆发,人类对“机器对话”的探索已跨越半个世纪。对话式 AI 正以颠覆性姿态推开新纪元的大门它不再是机械式被动应答的工具,而是具备感知、理解与创造能力的交互主体。这一变革的核心动力,源于多项核心技术的不断演进。例如,自然语言理解的质变,大模型突破语义泛化瓶颈;实时互动技术的成熟,低延迟交
2、互让对话更自然、流畅;多模态感知的融合,语音、视觉、情境的协同决策等等。2024 年 5 月,GPT-4o 的发布开创了 AI 实时语音交互的先河,推动了 AI 语音交互进入对话延迟更低、互动更流畅的 RTC 方案。同时,在 10 月份,OpenAI 发布了与 Agora(声网兄弟公司)、Livekit、Twilio 共建的 RealtimeAPI 公开测试版,用于构建基于 GPT-4o 语音到语音的 AI 应用和智能体,所有付费的开发者都能在应用程序中构建低延迟、多模态的实时互动体验。当前对话式 AI 的应用有两个技术路线,分别是端到端模型方案和级联模型方案,两者在性能、成本、灵活性、扩展性
3、以及集成部署等方面各有优缺点。同时,对话式 AI 的交互体验伴随着技术升级和应用扩展正在快速发展,对于开发者与 AI 创业者而言,如何选择最适合自身业务的技术方案与产品供应商显得至关重要。对此,声网研究院联合 RTE 开发者社区推出对话式 AI 发展白皮书,基于对行业的洞察、调研,并结合自身的业务经验,从对话式 AI 发展的背景、技术方案与产品生态、对话体验质量评估方法、应用实践落地等多个维度系统的梳理对话式 AI 的发展现状与未来的趋势方向,希望能为行业的从业者带来更多的帮助。2 目录目录 第一章:对话式第一章:对话式 AI AI 发展的背景发展的背景.5 第二章:对话式第二章:对话式 AI
4、AI 核心技术核心技术.7 2.12.1 对话式对话式 AIAI 的发展的发展.7 2.22.2 对话式对话式 AIAI 的主要技术方向的主要技术方向.7 2.32.3 级联对话式级联对话式 AIAI 的基本原理的基本原理.8 2.42.4 响应延迟响应延迟.9 2.5 2.5 智能打断智能打断.11 2.5.1 2.5.1 打断机制的核心类型打断机制的核心类型.11 2.5.2 2.5.2 避免意外的打断避免意外的打断.12 2.6 2.6 选择性注意力锁定选择性注意力锁定.13 2.6.12.6.1 技术特点技术特点.13 2.6.2 2.6.2 场景应用场景应用.14 2.7 2.7 对
5、话上下文管理对话上下文管理.14 2.7.1 2.7.1 为什么上下文很重要为什么上下文很重要.14 2.7.2 2.7.2 如何做好上下文?如何做好上下文?.15 2.8 2.8 视觉理解视觉理解.16 2.8.1 2.8.1 实时视频解析能力:动态场景的实时视频解析能力:动态场景的“感知感知-决策决策”闭环闭环.17 2.8.2 2.8.2 静态图像分析能力:从物体识别到逻辑推理静态图像分析能力:从物体识别到逻辑推理.17 2.8.3 2.8.3 对话式对话式 AIAI 的视觉理解进化方向的视觉理解进化方向.18 2.9 2.9 音频处理音频处理.18 2.9.1 2.9.1 麦克风和自动
6、增益控制麦克风和自动增益控制.18 2.7.2 2.7.2 回声消除(回声消除(AECAEC).19 2.9.3 2.9.3 噪声抑制(噪声抑制(ANSANS).19 2.10 2.10 网络传输网络传输.21 2.10.1 WebSocket2.10.1 WebSocket 与与 WebRTCWebRTC.21 2.10.2 2.10.2 实时传输网络实时传输网络.22 第三章:对话式第三章:对话式 AI AI 的主流方案及产品生态的主流方案及产品生态.25 3.1 3.1 技术架构与方案分类技术架构与方案分类.25 3.1.1 3.1.1 串行方案串行方案.25 3.1.2 3.1.2 多