1、推理服务行业发展趋势目录01行业发展趋势推理服务发展现状和趋势分析02技术方向差异化定位和技术优势03场景化解决方案典型客户场景和落地案例中国开源大模型能力大幅度提高缩小差距:2024年末,中国顶尖人工智能实验室推出了许多高性能模型。这使得中国人工智能实验室与美国人工智能实验室在模型智能水平上的差距逐渐缩小。多款中国模型现在已经能够与美国顶尖实验室的模型相媲美推理模型迅速普及:推理模型(在回答之前“思考”的模型)最初由OpenAI于2024年第三季度推出。在短短几个月内,以DeepSeek为首的中国竞争者已在很大程度上复制了o1的智能水平。目前,中国的多家人工智能实验室已经拥有前沿级别的推理模
2、型。开源模型逼近前沿实验室:以DeepSeek和阿里巴巴为代表的开源权重模型已接近o1级别的智能水平。Agent 和 MCP 结合成为流行范式模型提示词返回模型提示词返回ToolsRAG RAGAgentAgentAgentMCP协议数据库浏览器渲染虚拟机联机搜索Model Context Protocol(MCP)是一个开放协议,标准化了应用程序如何为 LLM 提供上下文模型模型模型Agent 需要推理性能进一步提高 一个典型任务通常需要6-8 次LLM 调用 总耗时:6.5-16秒(如果每次调用都需要等待)优化推理速度对提升用户体验至关重要什么是推理大模型推理是指人工智能大模型基于已学习的
3、知识,通过复杂的计算过程,对输入的问题进行分析、推导并得出结论的能力推理是企业大模型落地的主要方式预训练模型门槛极高,绝大部分企业都没有足够的资金投入在推理的时候增加了“思考时间”,推理计算量增加,效果变的更好不同场景,对推理性能的要求是不一样的复杂推理研究类场景客服语音交互场景文生图场景内容宽泛长上下文高延迟内容聚焦低延迟语音 TTS频繁多次修改多层计算数量较大推理平台的特点是多租和动态的在多个跨机实例上处理不同类型和动态变化的请求多用户共用延迟要求不同不同优先级上下文越来越长多机异构计算资源频繁的进程切换未知的计算时间膨胀的 KV Cache预填充和解码分离将 LLM 推理划分为预填充(P
4、rompt 处理和初始 Key/Value 计算)和解码(逐个生成后续 token)两个阶段。通过分离,提升整体推理效率和灵活性01通算异步调度优化通过并行处理独立计算任务,减少资源等待,提升整体推理速度和资源利用率。尤其针对 MOE 专家并行,效果明显02KV Cache 优化有效管理历史token的Key和Value向量缓存,降低内存占用,加速后续token生成,支持更长上下文03Nvidia、MoonCake、vLLM 和 SGLang 都在积极推动推理技术发展DeepSeek 连续一周发布的内容中有三项和推理优化有关推理优化的技术发展趋势目录01行业发展趋势02差异化定位和技术优势03
5、场景化解决方案典型客户场景和落地案例技术方向推理服务发展现状和趋势分析终极速度推理平台角色用户多个请求应用应用应用应用终极速度推理平台多引擎后端批处理(静态/持续/实时)提示词调度队列模型管理返回队列消息返回http/SSE提示词提交http/SSE指标监控(吞吐、延迟、GPU 使用率)计算硬件(GPU、NPU、CPU)不同后端的推理引擎(vLLM、Pytorch、SGLang等)结构化输出终极速度推理平台架构算力调度和模型管理健康监测架构分布式计算框架抽象低级通信细节采用批量方法提升效率可实现自动恢复采用灵活的Actor模型支持各类高级调度策略Xoscar基于Xavier的 Cache 共享
6、通过Cache共享减少重复计算通过Cache共享提升响应速度通过Cache共享优化资源利用重叠KV cache获取减少从慢速介质上访问KV Cache的开销多层KV cache系统解决 KV Cache 大容量存储问题层级KV cache排布优化了不同存储层次中KV Cache的放置缓存注意力解耦KV cache截断解决由于LLM上下文窗口溢出而导致缓存的KV Cache失效问题异构 PD 分离方案分离式部署是解决以上资源和SLO需求的最优解决方案。通过将Prefill和Decode任务分配到不同的GPU上,可以避