1、硅基流动硅基流动高性能高性能大模型推理云实践大模型推理云实践陈凯陈凯2024-082024-08内容内容提纲提纲 大模型推理云背景大模型推理云背景 供给侧加速进化的大模型 需求测多样化的大模型需求 大模型推理云挑战大模型推理云挑战 大模型推理挑战 推理上云的挑战 大模型推理云实践大模型推理云实践 核心引擎建设 推理云平台建设 总结与回顾总结与回顾大模型推理云背景:加速进化的大模型能力大模型推理云背景:加速进化的大模型能力 (以(以 LLM LLM 为例)为例)1.https:/ 年8月15日检索。大模型推理云背景:多样化大模型推理云背景:多样化的大模型需求的大模型需求 (以(以 LLM LLM
2、 为例)为例)1.https:/openrouter.ai/rankings,2024 年8月15日检索。2.https:/ 年 8 月 15 日检索。内容内容提纲提纲 大模型推理云背景大模型推理云背景 供给侧加速进化的大模型 需求测多样化的大模型需求 大模型推理云挑战大模型推理云挑战 推理挑战 云上挑战 大模型推理云实践 核心引擎建设 模型云建设 总结与回顾大模型推理挑战:需要严苛而昂贵的硬件大模型推理挑战:需要严苛而昂贵的硬件资源资源1.Vaswani A.Attention is all you needJ.arXiv preprint arXiv:1706.03762,2017.2.h
3、ttps:/huggingface.co/blog/llama313.https:/ cache size=(batch_size)KV cache size=(batch_size)*(sequence_length)(sequence_length)*2 2*(num_layers)(num_layers)*(hidden_size)(hidden_size)*(pricision_in_bytes(pricision_in_bytes)(上图使用(上图使用fp16fp16,其中乘数,其中乘数2 2包含了包含了 K K 和和 V V 的矩阵)的矩阵)大模型推理挑战:本身是一个慢而昂贵大模型
4、推理挑战:本身是一个慢而昂贵的任务的任务1.https:/ 大模型推理云背景大模型推理云背景 供给侧加速进化的大模型 需求测多样化的大模型需求 大模型推理云挑战大模型推理云挑战 推理挑战 云上挑战 大模型推理云实践大模型推理云实践 核心引擎建设 模型云建设 总结与回顾大模型推理云大模型推理云SiliconCloudSiliconCloud:生产就绪推理云服务:生产就绪推理云服务大模型推理云大模型推理云SiliconCloudSiliconCloud:生产就绪推理云服务:生产就绪推理云服务大模型推理云大模型推理云SiliconCloudSiliconCloud:生产就绪推理云服务:生产就绪推理云
5、服务大模型推理云大模型推理云SiliconCloudSiliconCloud:生产就绪推理云服务:生产就绪推理云服务1.https:/ FrameworkComputing ResourcesModels对话助理类Application程序生成类图片处理类数据分析类视频生成类语音生成类泛Agent类Framework IntergratedlangflowintergratedlangfuseintergratedlangchainIntergrateddify IntergratedText2SQLPlugincomfyUI PluginPaaSComfyUI As A ServiceLan
6、gSmith As A ServiceOther DevOps Service应用层应用层SiliconSiliconCloudCloud.核心引擎云服务丰富模型SiliconCloudSiliconCloud之之大模型推理云大模型推理云核心引擎核心引擎标准模型部署MaaS模型快速启动模型动态扩张模型业务监控模型管理模型调优模型部署模型推理Inference FrameworkComputing ResourcesModels对话助理类Application程序生成类图片处理类数据分析类视频生成类语音生成类泛Agent类Framework Intergratedlangflowintergra