1、APSARA云栖大会云原生场景下,AIGC模型服务的工程挑战和应对New Future on Cloud车漾阿里云智能高级技术专家#page#APSARA云栖大会大模型推理对基础设施带来更多挑战AI商业化的时代,大模型推理比训练会被更加广泛的使用有限计算资源下运行更多服务大模型推理对基础设施服务能力的挑战是阶跃式的按需使用,避免浪费对“成本、性能、效率”的要求,成为LLM/AIGC快速落地的高门槛NLPsMooresLaw:Everyyearmodelsize increases by10x1800成本4401.6T1080GPT3效率性能进170BMicrosoftT-NLG8AnVOA3P
2、OV360GPT2BER8.380.0580.11B0.34日1.5B20172018202032021模型数据不断送代用户等待时间更新低耗时至关重要更高的弹性性能mtps/m#page#APSARA云栖大会AI/大模型应用云原生化的超势Kubernetes和容器技术帮助用户简化GPU资源运维流程,承载用户业务AIGC应用的同时利用弹性优势节省成本AIGC Services苗PlanSearchGameChatCustom ServiceImage GenerationAIGC Applications(Pods)HuggingFace/Stable Diffusion/PyTorch/Ten
3、sorflow/DeepSpeed/Kubernetes凯视机视湖店#page#APSARA云栖大会AIGC模型推理服务在云原生场景下的痛点云原生计算存储分离架构导致的数据访问高延记、带宽受限问题在AIGC大模型时代越发明显,同时影响成本、性能和效率Kubernetes例子:杭州北京Pod上海PodPod如果一个Pod启动Bloom-175B模型(FP16精度模型大小约ContainerContainer340GiB),耗时约4970秒,其中加载模型4300秒(85%)*ContainerFF七HPA创建Pod(10秒)创建节点(约45-60秒)StoragePersi拉取镜像(600秒)Ja
4、Np YsIps3fs/o5sfsnas driverVPC Network业务初始化,加载模型(4300秒)Disk/NAS/Object Storage#page#APSARA云栖大会AIGC模型推理服务在云原生场景下的痛点缓存可以加速数据访问的效率,但在云原生AI模型推理场景中实际使用仍然面临许多工程问题Kubernetes资源成本问题:运维管理问题缓存需要额外的计算和存储资源缓存系统如何管理生命周期?PodPodPod何降低资源成本运维可观测性跨区域流量成本模型跨区域同步额ContainerContainerContainer用户体验问题:缓存性能问题店店店缓存与应用之间的亲和性如何访
5、问缓存中的数据?调度怎么配置?车平怎么对接容器应用?Data Cache存储配置问题:性能调优问题缓存数据如何分布根据业务场景缓存如何参数润优?用什么介质存储?VPC NetworkDisk/NAS/Object StorageFluid#page#APSARA云栖大会Fluid是什么?Fluid:在Kubernetes中编排数据和任务CLOUD NATIVEData-Intensive AppsSANDBOX(HuggingFace,Tensorfow,PyTorch,Spark,Presto,)个FlUIdDatasetFluid核心功能:Data标准化:用于数据访问和分布式缓存管理的AP
6、IAlluxiojuiceFsThinJindoEFCOperationsRuntimRuntimc自动化:针对数据的操作,如数据处理、预取、迁移和缓存护缩容的操作。加速:通过弹性分布式缓存和亲和度调度提高数据访问效率。Data FlowData AbstractionData AccessCacheScalingAccelerationOrchestration&Management&Scheduling屏蔽差异:支持不同Kubernetes环境的CSI和边车模式。数据流:自动编排数据操作和任务调度。Heterogeneous Storage Systems05SNAS#page#APSAR