《智算时代基于 ACK 落地云原生AI.pdf》由会员分享,可在线阅读,更多相关《智算时代基于 ACK 落地云原生AI.pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、智算时代,基于 ACK 落地云原生AI张凯阿里云智能 云原生应用平台 容器服务Contents目录01大模型带来的挑战02云原生AI支持大模型生产的关键技术03ACK云原生AI套件工程实践 AI在计算机视觉、语音、NLP等领域取得突破,已深入影响各行各业 AI服务上云形成趋势 深度学习/AIGC应用广泛采用容器等云原生技术开发探索数据准备模型构建模型训练模型推理调优提效持续发布弹性深度学习的特点 端到端流水线 Raw data in,executable model out 任务长时运行 小时天周 持续迭代优化 梯度下降,超参数调优,Prompt工程 消耗大量算力和海量数据人工智能机器学习深度
2、学习(Supervised learning)Generative AIReinforcement learningUnsupervised learning人工智能(AI)发展概述New Future on Cloud工作项原有方式:从底层资源到上层框架,全手动环境搭建安装配置脚本,make,Bazel或者pip安装,容器镜像分布式环境通过SSH登录到每台机器上手工部署GPU资源调度手动管理,静态分配,使用效率不明确数据准备数据存储共享自建存储,手动拷贝训练数据到每台机器上模型开发开发手动安装Jupyter,Tensorboard等工具模型训练训练登录每台机器上手工启动、记录、对比实验监控G
3、PU资源监控:登录GPU主机执行nvidia-smi查看,或编写代码调用NVML;训练效果监控:手动启动TensorBoard错误处理缺少容错,手动保存checkpoint、重启任务模型推理模型发布用户需自定义发布流程和系统线上运维用户自建运维系统OS、Nvidia驱动、CUDA、cuDNN等环境配置 NVIDIA Driver 367,370;CUDA Toolkit 7.5,8.0;cuDNN 5.软件的依赖关系 Python,GCC,Bazel 资源分配策略多样 GPU卡型更新频繁 应用要指定单张或多张GPU卡 甚至要使用一张GPU卡的部分资源GPU运维复杂 监控维度多 故障排查难 弹性
4、不灵活数据科学家算法工程师平台运维复杂、多变、低效GPU利用率如何?如何提升GPU资源的ROI?还有多少GPU空闲?我的GPU还正常工作吗?AI工程落地难、效率低以深度学习为代表的AI生产系统面临效率、性能和成本挑战挑战1:GPU集群管理复杂挑战2:深度学习工程效率低大模型对基础设施带来更多挑战 算力:千卡GPU任务,万卡集群 数据:PB级存储,TB级吞吐 网络:800Gbps3.2Tbps RDMA 训练:分布式,混合并行 推理:模型优化、服务QoS 工程效率:持续快速迭代 资源效率:高利用率、可扩展GPT3:175B 参数,单次训练使用45TB数据,近千卡 A100/1个月,成本数百万美元
5、。效率规模性能 大模型对基础设施服务能力的挑战是阶跃式的。对“规模、性能、效率”的要求,成为LLM/AIGC快速落地的高门槛。更弹性的算力需求更高的稳定性要求更快的创新和迭代交付 Gartner 预测:到 2023 年 70%的 AI 应用是基于容器和 Serverless 技术开发。IDC预测:By 2025,Nearly 50%of All Accelerated Infrastructure for Performance-Intensive Computing(AI,HPC,and Big Data Analytics)will Be Cloud Based as These Syst
6、ems Are Increasingly Integrated with Enterprise Software.从无状态应用,到企业核心应用,到 AI/大数据应用基于容器的AI/大数据成为云原生时代的技术趋势AI工程化向云原生架构演进资源管理分散生产流程割裂、效率低团队协作、共享困难传统架构资源池化:弹性、灵活生产流程高效闭环多角色协同,加速迭代云原生架构AI等异构工作负载异构资源CPUGPUFPGARDMAVPCOSS统一管理算法和场景框架NPU统一工作流,统一调度NAS充分利用云的资源弹性、异构算力、便捷服务以及容器、自动化、微服务化等云原生技术手段,为AI/ML 提供工程效率高、成本低