当前位置:首页 > 报告详情

9-2 阿里云云原生深度学习平台 PAI-DLC 实践与落地.pdf

上传人: 云闲 编号:101876 2021-01-01 19页 8.39MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
阿里云云原生深度学习平台PAI-DLC实践与落地,主要内容包括: 1. 机器学习平台介绍:深度学习平台DLC的架构设计,包括数据处理、模型开发、模型训练、模型部署等能力。 2. 未来展望:机器学习平台需要具备的能力,如用户管理效率体验、资源管理节省成本、弹性可复现异构算力数据自治等。 3. 机器学习平台PAI产品架构:深度学习平台的特性,如CPU、GPU、FPGA、RDMA、NAS/OSS/CPFS等架构支持,以及Kubernetes(ACK)、Device Plugin、CRI、CNI、CSI Plugin等技术的应用。 4. 容器化引擎:支持多级Quota、多种资源配置、Quota记账、单机多卡/多机多卡场景、异构计算资源等。 5. 弹性训练:根据需求调整GPU数量,影响最终模型收敛和超参数调优。 6. AI负载调度:节省成本、提高集群资源利用率,支持Coscheduling、Binpack、Capacity Scheduling等调度策略。 7. 可观测性:支持容器化引擎、容器化服务、Push image、CI Pipeline等,实现代码、镜像、发布全流程。 8. 支持自定义镜像、完整CI/CD流程,提高开发效率。 9. 支持指标采集、数据安全隔离、数据加速、Runtime缓存引擎、事件采集、日志/事件采集等。 10. 支持国产化芯片、标准化发展,实现深度学习平台的全面优化和提升。
"深度学习平台DLC如何实现架构设计?" "PAI-DLC在机器学习平台具备哪些独特能力?" "如何利用EasyScale实现精度无损弹性训练?"
客服
商务合作
小程序
服务号
折叠