报告预览

04-从开源到商业化：云原生架构下大模型的规模推理产品化实践 - 叶挺.pdf

编号：621003

PDF 27页 1.68MB 下载积分：VIP专享

下载报告请您先登录！

04-从开源到商业化：云原生架构下大模型的规模推理产品化实践 - 叶挺.pdf

1、从开源到商业化云原生架构下大模型的大规模推理产品化YeTing-DaoCloud目录业务背景和挑战01开源技术的力量03云原生化的 SaaS 平台介绍02Content未来规划04业务背景和挑战Part 01产品销售形态MaaS 服务Pay for Tokens模型部署Pay for Instances模型训练/微调开发机大模型推理的“三高”问题-MaaS算力成本问题推理性能问题高并发需求MaaS 服务大模型推理的“三高”问题-MaaS扩容算力资源限流KV Cacheruntime 的选择vllmsglang 短时间无法解决可以按照GPU运行成本动态进行定价010203高并发需求推理性能问题成

2、本问题算力资源接入方式自持算力三方接入统一算力管控平台借助云原生提供的技术底座，我们实现统一的算力管控平台，支持大量接入算力资源主要接入的算力资源主要以两种为主自持算力合作企业提供算力租赁算力接入方式-统一管控平台自研产品 DCE 云原生操作系统的的基座能力；天然具备了多集群纳管的能力；使得纳管算力集群的操作成本非常低。通过 kubeconfig 即可快速接入算力集群支持表单化的集群创建能力可自定义安装 Addon，GPU驱动、管理模块的 Agent 全自动安装提供完整的多集群中心化可观测组件能力算力接入方式-三方接入的难题？卡不同（异构）统一的算力资源池化（DCE 适配主流

3、GPU，可自适应管理）地域不同（调度复杂性）Kueue 的调度稳定性（当三方算力集群出现波动时，如果保证已有用的资源稳定）可靠的算力供应合作选择（严选机制）产品在设计时就考虑不稳定的备份策略监控运维 KCover故障自恢复（掉卡续训）接入成本高标准化的产品接入方式统一初始化为算力集群（Kubernetes），使用标准的集群方式纳管GPU 算力集群的特殊性算力网络架构驱动和插件依赖特殊调度策略相较于传统集群的架构，组建一个大规模的GPU算力集群，需要从底层设计考虑整个集群的架构设计。Why Kubernetes 是最适合的算力集群基座？GPU凭借其并行计算能力和专用架构,在AI训练和推理中

4、发挥关键作用,显著提升性能和效率,推动AI技术快速发展,成为现代AI基础设施的核心组件。并行处理专用架构软件生态性能发展快Kubernetes作为领先的开源容器编排平台，在容器化部署和自动化调度优化能力，可以高效管理 GPU 等昂贵的计算资源。动态调度监控和日志多集群管理高可用高成本问题算力资源纳管成本，底座环境经常变化，如果避免对用户的应用运维成本算力成本 GPU 动态拆分+统一调度（HAMi）/（Kueue）一键接入算力集群（todo 80%）高复杂性（模型/框架异构）算力资源需要考虑异构问题模型种类范围广多模态支持推理框架繁多提供统一的模型范式定义 runtime hugg

5、ingface/modelscopeModelHubdeployments:-runtime:vllmversionRequired:=0.7.1#semver match for runtime.resourceRequirements:gpuType:nvidia-gpugpuCount:16perGPUMemoryGB:80cpu:8 memory:32 customRuntimeArgs:#define runtime parameters that are optimized for this scenario.-runtime:sglangversionRequired:=0.4.

6、3resourceRequirements:gpuType:nvidia-gpugpuCount:16perGPUMemoryGB:80cpu:8memory:32customRuntimeArgs:云原生化的 SaaS 平台介绍Part 02DaoCloud-D.run SaaS 平台介绍模型广场，国内外主流开源模型，一键体验，一键部署支持国内主流开源模型支持模型快速部署无需自行估算算力资源支持 API 调用，通用 API 支持模型部署按实例计费公共模型调用按 Token 计费统一的模型广场模型部署极简模型创建过程支持实时扩缩容部署区域任意选择模型体验快捷进行模型体验模型广场，国内外主流开源

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（04-从开源到商业化：云原生架构下大模型的规模推理产品化实践 - 叶挺.pdf）为本站（张5G）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。