1、从开源到商业化云原生架构下大模型的大规模推理产品化YeTing-DaoCloud目录业务背景和挑战01开源技术的力量03云原生化的 SaaS 平台介绍02Content未来规划04业务背景和挑战Part 01产品销售形态MaaS 服务Pay for Tokens模型部署Pay for Instances模型训练/微调开发机大模型推理的“三高”问题-MaaS算力成本问题推理性能问题高并发需求MaaS 服务大模型推理的“三高”问题-MaaS扩容算力资源限流KV Cacheruntime 的选择vllmsglang 短时间无法解决可以按照GPU运行成本动态进行定价010203高并发需求推理性能问题成
2、本问题算力资源接入方式自持算力三方接入统一算力管控平台 借助云原生提供的技术底座,我们实现统一的算力管控平台,支持大量接入算力资源 主要接入的算力资源主要以两种为主 自持算力 合作企业提供算力租赁算力接入方式-统一管控平台自研产品 DCE 云原生操作系统的的基座能力;天然具备了多集群纳管的能力;使得纳管算力集群的操作成本非常低。通过 kubeconfig 即可快速接入算力集群 支持表单化的集群创建能力 可自定义安装 Addon,GPU驱动、管理模块的 Agent 全自动安装 提供完整的多集群中心化可观测组件能力算力接入方式-三方接入的难题?卡不同(异构)统一的算力资源池化(DCE 适配 主流
3、GPU,可自适应管理)地域不同(调度复杂性)Kueue 的调度 稳定性(当三方算力集群出现波动时,如果保证已有用的资源稳定)可靠的算力供应合作选择(严选机制)产品在设计时就考虑不稳定的备份策略 监控运维 KCover故障自恢复(掉卡续训)接入成本高 标准化的产品接入方式统一初始化为算力集群(Kubernetes),使用标准的集群方式纳管GPU 算力集群的特殊性算力网络架构驱动和插件依赖特殊调度策略相较于传统集群的架构,组建一个大规模的GPU算力集群,需要从底层设计考虑整个集群的架构设计。Why Kubernetes 是最适合的算力集群基座?GPU凭借其并行计算能力和专用架构,在AI训练和推理中
4、发挥关键作用,显著提升性能和效率,推动AI技术快速发展,成为现代AI基础设施的核心组件。并行处理专用架构软件生态性能发展快Kubernetes作为领先的开源容器编排平台,在容器化部署和自动化调度优化能力,可以高效管理 GPU 等昂贵的计算资源。动态调度监控和日志多集群管理高可用高成本问题 算力资源纳管成本,底座环境经常变化,如果避免对用户的应用 运维成本 算力成本 GPU 动态拆分+统一调度(HAMi)/(Kueue)一键接入算力集群(todo 80%)高复杂性(模型/框架异构)算力资源需要考虑异构问题 模型种类范围广 多模态支持 推理框架繁多 提供统一的模型范式定义 runtime hugg
5、ingface/modelscopeModelHubdeployments:-runtime:vllmversionRequired:=0.7.1#semver match for runtime.resourceRequirements:gpuType:nvidia-gpugpuCount:16perGPUMemoryGB:80cpu:8 memory:32 customRuntimeArgs:#define runtime parameters that are optimized for this scenario.-runtime:sglangversionRequired:=0.4.
6、3resourceRequirements:gpuType:nvidia-gpugpuCount:16perGPUMemoryGB:80cpu:8memory:32customRuntimeArgs:云原生化的 SaaS 平台介绍Part 02DaoCloud-D.run SaaS 平台介绍模型广场,国内外主流开源模型,一键体验,一键部署支持国内主流开源模型支持模型快速部署无需自行估算算力资源支持 API 调用,通用 API 支持模型部署按实例计费公共模型调用按 Token 计费统一的模型广场模型部署极简模型创建过程支持实时扩缩容部署区域任意选择模型体验快捷进行模型体验模型广场,国内外主流开源