1、MaaSMaaS模型即服务的创新实践模型即服务的创新实践阿里云首席技术官/周靖人农业法律逻辑推理伦理艺术哲学医学语言理解认知先验知识物理金融爆炸性增长的数据数据不断提升的计算能力计算能力数据、计算与模型的协同发展,让知识触手可及数据、计算与模型的协同发展,让知识触手可及算法创新与突破,从数据中抽取知识知识持续演进的模型技术模型技术MaaSMaaS(Model as a Service)(Model as a Service)促进中国大模型生态的繁荣是阿里云的首要目标阿里云飞天操作系统阿里云飞天操作系统模型训练模型训练(PAIPAI灵骏)灵骏)模型推理模型推理(PAIPAI灵积)灵积)模型矩阵模
2、型矩阵模型定制与应用服务模型定制与应用服务通义垂直领域产品通义垂直领域产品通义通义听悟听悟通义通义灵码灵码通义通义星尘星尘通义晓蜜通义晓蜜通义通义千问千问通义通义万相万相三方开源三方开源&商业模型商业模型魔搭模型社区魔搭模型社区阿里云百炼阿里云百炼模型训练模型训练(PAIPAI灵骏)灵骏)MaaSMaaS(Model as a Service)(Model as a Service)促进中国大模型生态的繁荣是阿里云的首要目标大模型训练的挑战大模型训练的挑战每一次训练迭代都需要对大规模数据集的高效导入瓶颈主要来自GPU之间的通信,需要动态调度以应对复杂计算与通信模式单一GPU故障会对训练产生全局
3、影响,错误代价高模型训练需要gang scheduling,对资源有效共享带来更大挑战GPU服务器GPU服务器数据中心网络DataGPUStorageGPUGPUGPU吞吐时间单个GPU故障存储存储网络与调度网络与调度故障恢复故障恢复资源与配额管理资源与配额管理Schedule job高性能存储高性能存储CPFSCPFSHPN7.0HPN7.0数据中心网络数据中心网络和拓扑感知调度和拓扑感知调度自动故障检测与自动故障检测与快速恢复快速恢复安全多租与优先级调度安全多租与优先级调度PAIPAI灵骏:大规模分布式模型训练平台灵骏:大规模分布式模型训练平台去中心化分布式架构,无性能瓶颈,客户端全并行
4、IO 访问800GB高速RDMA连接以及基于双层网络架构,支持万卡级扩展弹性容错训练引擎,实现自动容错和作业自动重启。秒级checkpoint,训练任务快速恢复,训练精度无损基于容器的大小任务分级的精细化管理和隔离,提升安全性和多租户体验20TB/s20TB/s吞吐分钟级分钟级故障恢复96%96%线性扩展+20%+20%资源利用率模型推理模型推理(PAIPAI灵积)灵积)MaaSMaaS(Model as a Service)(Model as a Service)促进中国大模型生态的繁荣是阿里云的首要目标算力性价比算力性价比影响应用规模影响应用规模延时敏感应用依赖延时敏感应用依赖就近推理服务
5、就近推理服务用量波动需要弹性伸缩用量波动需要弹性伸缩和高可用服务和高可用服务模型推理是模型推理是AIAI规模化应用的关键支撑规模化应用的关键支撑模模型型大大小小时间时间过去5年增长15,000倍每千token的成本审图号:GS(2016)1667号请求数请求数时间时间云计算的算力调度与大规模分布式特性,致力打造模型训练与推理的最佳算力平台云计算的算力调度与大规模分布式特性,致力打造模型训练与推理的最佳算力平台PAIPAI灵积:超低延时模型推理与服务平台灵积:超低延时模型推理与服务平台推理服务推理服务ServerlessServerless化化自动弹性伸缩自动弹性伸缩推理引擎自适应优化推理引擎自
6、适应优化企业级服务管理企业级服务管理实时监控与自动伸缩,结合预付费与弹性按量计费,降低用户成本屏蔽底层异构硬件,实现一键快速拉起AI计算任务,复杂异构系统自动运维,轻松管理基于token的灵活计量计费,支持SDK/API Key管理,A/B测试、灰度发布、数据看板等企业级能力自动模型压缩,实现更少资源,更低时延。动态打包,流水执行,实现推理加速4x 4x 吞吐提升吞吐提升分钟级分钟级 动态扩缩动态扩缩容容8x 8x 计算资源节省计算资源节省模型矩阵模型矩阵通义通义千问千问通义通义万相万相三方开源三方开源&商业模型商业模型魔搭模型社区魔搭模型社区MaaSMaaS(Model as a Servi