当前位置:首页 > 报告详情

硅基流动高性能低成本的大模型推理云实践-陈凯-final.pdf

上传人: 张** 编号:175748 2024-09-09 44页 14.58MB

1、硅基流动硅基流动高性能高性能大模型推理云实践大模型推理云实践陈凯陈凯2024-082024-08内容内容提纲提纲 大模型推理云背景大模型推理云背景 供给侧加速进化的大模型 需求测多样化的大模型需求 大模型推理云挑战大模型推理云挑战 大模型推理挑战 推理上云的挑战 大模型推理云实践大模型推理云实践 核心引擎建设 推理云平台建设 总结与回顾总结与回顾大模型推理云背景:加速进化的大模型能力大模型推理云背景:加速进化的大模型能力 (以(以 LLM LLM 为例)为例)1.https:/ 年8月15日检索。大模型推理云背景:多样化大模型推理云背景:多样化的大模型需求的大模型需求 (以(以 LLM LLM

2、 为例)为例)1.https:/openrouter.ai/rankings,2024 年8月15日检索。2.https:/ 年 8 月 15 日检索。内容内容提纲提纲 大模型推理云背景大模型推理云背景 供给侧加速进化的大模型 需求测多样化的大模型需求 大模型推理云挑战大模型推理云挑战 推理挑战 云上挑战 大模型推理云实践 核心引擎建设 模型云建设 总结与回顾大模型推理挑战:需要严苛而昂贵的硬件大模型推理挑战:需要严苛而昂贵的硬件资源资源1.Vaswani A.Attention is all you needJ.arXiv preprint arXiv:1706.03762,2017.2.h

3、ttps:/huggingface.co/blog/llama313.https:/ cache size=(batch_size)KV cache size=(batch_size)*(sequence_length)(sequence_length)*2 2*(num_layers)(num_layers)*(hidden_size)(hidden_size)*(pricision_in_bytes(pricision_in_bytes)(上图使用(上图使用fp16fp16,其中乘数,其中乘数2 2包含了包含了 K K 和和 V V 的矩阵)的矩阵)大模型推理挑战:本身是一个慢而昂贵大模型

4、推理挑战:本身是一个慢而昂贵的任务的任务1.https:/ 大模型推理云背景大模型推理云背景 供给侧加速进化的大模型 需求测多样化的大模型需求 大模型推理云挑战大模型推理云挑战 推理挑战 云上挑战 大模型推理云实践大模型推理云实践 核心引擎建设 模型云建设 总结与回顾大模型推理云大模型推理云SiliconCloudSiliconCloud:生产就绪推理云服务:生产就绪推理云服务大模型推理云大模型推理云SiliconCloudSiliconCloud:生产就绪推理云服务:生产就绪推理云服务大模型推理云大模型推理云SiliconCloudSiliconCloud:生产就绪推理云服务:生产就绪推理云

5、服务大模型推理云大模型推理云SiliconCloudSiliconCloud:生产就绪推理云服务:生产就绪推理云服务1.https:/ FrameworkComputing ResourcesModels对话助理类Application程序生成类图片处理类数据分析类视频生成类语音生成类泛Agent类Framework IntergratedlangflowintergratedlangfuseintergratedlangchainIntergrateddify IntergratedText2SQLPlugincomfyUI PluginPaaSComfyUI As A ServiceLan

6、gSmith As A ServiceOther DevOps Service应用层应用层SiliconSiliconCloudCloud.核心引擎云服务丰富模型SiliconCloudSiliconCloud之之大模型推理云大模型推理云核心引擎核心引擎标准模型部署MaaS模型快速启动模型动态扩张模型业务监控模型管理模型调优模型部署模型推理Inference FrameworkComputing ResourcesModels对话助理类Application程序生成类图片处理类数据分析类视频生成类语音生成类泛Agent类Framework Intergratedlangflowintergra

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了硅基流动高性能大模型推理云实践的相关内容。文章首先阐述了大规模模型推理云的背景和需求,然后分析了大模型推理面临的挑战,包括难满足质量好、模型快同时价格低的需求,以及自部署模型服务的冷启和稳定性挑战等。接着,文章介绍了硅基流动推理云的核心引擎建设和实践,包括模型层、芯片层、推理层的优化,以及模型管理和调优等方面的内容。最后,文章总结了硅基流动推理云的优势,包括高性能核心引擎、丰富的模型支持、统一的API形态等,并提供了联系方式。
"大模型推理云实践"如何提升模型推理效率? 如何利用SiliconCloud实现模型服务的快速启动和动态扩张? SiliconCloud提供的统一兼容API形态如何降低模型使用门槛?
客服
商务合作
小程序
服务号
折叠