1、Media Over QUICAI多模态聊天中的低延迟传输探索蚂蚁终端体验科技大会自我介绍彭堂(花名:巴格)阿巴巴淘天集团终端平台级技术专家,2009年毕业于北京航空航天学信息与计算科学专业。2013年加阿巴巴今,拥有超过10年的移动端技术架构经验。曾深度参与虾乐、机天猫、机淘宝等核移动客户端的架构设计与性能优化作。在移动端性能保障、络传输优化、多媒体技术等领域有着丰富的实战经验和深的技术洞察。/01/02/03背景 MOQ协议介绍 淘宝MOQ实践 AI多模态面临的技术挑战传统网络方案的局限性QUIC协议基础介绍Media Over Quic协议设计技术架构设计服务端设计客户端设计数据对比未来
2、展望AI实时多模态应用市场增全球对话式AI市场预计从2025年的170.5亿美元增到2031年的498亿美元语助市场预计以13.6%的CAGR增,到2033年达到148亿美元语AI代理市场预计以34.8%的CAGR增,到2034年达到475亿美元户体验需求 传统持电话更效的交互 减少户学习成本的简单界 多模态交互能,持语与其他输式结合 多模态数据传输需要更带宽,特别是清图像和视频 移动络环境下带宽不稳定,影响多模态数据传输 多模态数据压缩与优化成为关键挑战 需要智能带宽分配策略,优先保障关键模态数据 实时多模态交互要求端到端延迟低于500ms 传统HTTP/TCP协议的队头阻塞问题导致延迟波动
3、 多模态数据同步处理增加了系统复杂性 需要优化的传输协议以满低延迟要求传统网络解决方案的局限性在AI多模态聊天场景中,传统媒体传输协议面临的挑战13秒13秒0.51.0秒0.20.5秒传统协议对主要局限性HTTPRTMPWebSocketWebRTC延迟延迟中延迟低延迟延迟传统络协议延迟普遍偏,法满实时交互诉求安全性不多数传统协议缺乏内置加密机制,需要额外的安全层连接体验差在移动设备中法动切换WIF和蜂窝,重连耗时协议复杂度Webrtc的P2P协议需要STUN/TURN服务器穿透,但是AI聊天C/S就可以多模态AI聊天的延迟要求 理想延迟:500ms 可接受延迟:1000ms 打字指示器可缓解
4、延迟感知语交互 理想延迟:200ms 可接受延迟:500ms 超过1000ms严重影响对话流畅度视觉交互 理想延迟:300ms 可接受延迟:/处理可轨道列表 console.log(Available tracks:,tracks););/订阅个轨道const subscription=subscriber.subscribe(namespace:public,name:video.main,startSequence:42,/从序列号42开始 priority:10 /优先级设置);/处理接收到的对象subscription.on(object,(object)=/处理媒体对象 proces
5、sVideoFrame(object.data););Media over QUIC 可靠性设计灵活的部分可靠传输与错误恢复机制部分可靠性传输快速错误恢复早期检测 基于序列号和时间戳的丢包早期检测,需等待超时选择性重传 仅重传关键数据,关键数据可通过FEC恢复或直接丢弃并恢复 多流并恢复,单流错误不影响其他流的传输和恢复可靠性级别选择MoQ允许应程序为不同类型的媒体内容选择不同级别的可靠性,从完全可靠到完全不可靠之间的多个级别。QUIC流于完全可靠传输(如关键帧)QUIC数据报于不可靠传输(如关键帧)适应重传策略,基于帧重要性和络状况时间敏感数据优先传输,过期数据动丢弃实现机制前向纠错(FEC
6、)机制FEC作原理发送冗余数据,使接收能够在不请求重传的情况下恢复少量丢失的数据包,减少延迟并提流畅度。灵活擦除纠正(Flexible Erasure Correction)适应FEC编码率,根据络状况调整基于跳数(hop)特性的定制FEC策略与编解码器级别的丢包隐藏技术结合实现技术MoQ在多媒体传输中的优势Media over QUIC结合了WebRTC的低延迟、HLS/DASH的可扩展性和QUIC的现代特性MoQ vs 传统流媒体协议同时实现WebRTC级别的低延迟(500ms)保持HLS/DASH级别的扩展性持百万级并发观众的实时流媒体适于规模AI多模态聊天场景多路复:单连接传输多个媒体