1、云原生在AI场景的优化实践阿里云智能解决方案架构师叶剑宏AI 工作负载云原生化DataIngestionML StagesModelDataAnalysisDataTransformationDataValidation 可扩展可扩展ScalabilityScalability 可重现可重现PortabilityPortability 可组装可组装ComposabilityComposabilityDataSplittingDataSplittingBuilding aModelModelValidationModelValidationRoll-outServingMonitoringLog
2、gingStorageFrameworkToolingUXRuntimeHWAcceleratorOSDriversBy 2023,70%of AI workloads will use application containers or be built using a serverless programming model necessitating a DevOps culture.Gartner在阿里云 ACK 中运行的 AI 应用教育AI互娱AI自动驾驶游戏AI印刷文字识别OCR语音识别 ASR语音评测语音合成 TTS图像视频分析流利说懂你英语面部识别图像合成内容审核直播内容增强推
3、荐陌陌、ZAO(换脸)核心模型训练汽车仿真测试语音控制智能机器人小鹏智算集群游戏机器人(关卡优化、陪玩)游戏用户画像图像动画虚拟人三国志战略版AI工程挑战01云原生在AI场景的优化实践GPU调度优化02数据读取加速03云原生工具链041、AI工程挑战AI 工程效率挑战典型困难之一:GPU 等异构资源集群的运维挑战典型困难之二:深度学习的工程效率低工作项原有方式:从底层资源到上层框架,全手动深度学习环境搭建安装配置Make,Bazel或者pip安装,或者通过容器镜像分布式环境通过SSH登录到每台机器上手工部署GPU资源调度手动记录管理,整机分配,使用效率低数据准备数据集存储、共享手动拷贝数据到每
4、台机器上模型开发开发手动安装Jupyter+Tensorboard模型训练训练通过SSH登录到每台机器上手工脚本启动监控GPU资源监控,需要登录执行nvidia-smi;训练效果监控,手动启动TensorBoardcheckpoint和模型导出手动保存checkpoint和导出模型模型推理模型发布上线用户需自定义发布流程和系统线上运维用户自建运维系统AI 工程成本挑战GPU算力强大,但贵01GPU 单卡利用率低,空闲时间多02存算分离架构带来的数据访问和处理成本高03AI工程流程复杂、效率低04有状态计算使用弹性成本优化的难度大052、GPU调度优化GPU 共享调度与隔离业界首款K8s GPU
5、独占和共享调度方案,应用代码零侵入支持自定义Nvidia GPU显存和算力共享,结合阿里云自研 cGPU技术支持多模型共享显存和算力时保证隔离,同时避免虚拟化开销极大提升AI开发环境和推理服务的GPU利用率Pod0Pod1Pod3Pod4gpu0gpu0gpu1gpu1gpu0Nodegpu0gpu1gpu2gpu3共享独占gpu0Pod2gpu0多卡共享NvidiaContainer RuntimeGPU 拓扑感知调度自动发现多GPU卡之间的通信链路,包括Nvidia P2PNVLink,PCI-e,RDMA调度器自动选择最大带宽的通信链路,实现分布式训练加速GPU分配保证“Gang+Bin
6、pack”,最大化利用率,避免资源碎片无代码浸入ACK 调度器-CybernetesACK基于K8s Scheduler framework扩展,通过一套架构+插件组合,原生支持各种复杂调度场景,包括异构、AI、大数据、HPC等。兼容标准K8s,产品内置与阿里云基础资源集成优化。开放架构,最大化场景覆盖;开源共建,引领云原生调度系统演进计算任务增强调度Gang/Co-schedulingCapacity scheduling/多租户弹性配额Job Queue/优先级队列动态负载感知调度数据感知调度资源预留重调度SLO差异化DL Job 调度优化多集群任务调度异构资源增强调度CPU拓扑感知:NU