《Alluxio AI高性能数据访问平台-202404.pdf》由会员分享,可在线阅读,更多相关《Alluxio AI高性能数据访问平台-202404.pdf(18页珍藏版)》请在三个皮匠报告上搜索。
1、Alluxio AI高性能数据访问平台Alluxio Enterprise AI数据编排平台助力云原生大数据分析和AI计算人工智能将在2029年左右达到人类智力水平。进一步展望,至2045年,智能技术和人类文明所创造的生物机器智能的能力将被扩大10亿倍。我们正在见证全球性数据中心重组的需求井喷,这场长达十年的对现有数据中心的回收和利用,终将迈向加速计算的转型之旅。Ray Kurzweil美国投资人和未来学家黄仁勋Nvidia CEOAI/ML的竞争对企业至关重要重塑企业数据基础架构更是大势所趋企业搭建/优化AI高性能数据访问平台所面临的挑战更快的迭代速度更高的准确性和可追溯性快速增长的数据集更
2、快的模型建设周期GPU很稀缺GPU很昂贵GPU的利用率很低少贵低管理数据副本的复杂数据工程方案专用存储失控的云和基础设施的费用业务压力复杂且高昂的解决方案GPU的烦恼Alluxio AI 数据平台架构高性能的数据访问AI/ML框架分布式缓存全局数据访问数据管理企业安全与合规性能和可扩展性DevOps能力Alluxio AI 数据平台云本地混合云跨云统一的全局视图Alluxio AI 模型训练场景2-8x数据访问速度提升集训可扩展性高、训练任务容错性高模型迭代更高效降低数据工程复杂性和成本去中心化架构,支持100亿以上对象Alluxio+模型部署场景70707070On PremOn PremC
3、heckpoints训练数据对象存储或 HDFS数据湖数据源模型训练集群On Premise70707070On PremOn Prem模型推理集群线上AI应用/推理集群70707070On PremOn Prem推理集群线上AI应用/推理集群更快部署模型上线,生产环境部署时间下降至 1/2-1/3支持高并发拉取降低带宽流量竞争,减轻底层对象存储/HDFS/NAS负载模型WorkerWorkerWorkerWorkerWorkerWorkerWorkerWorker线上AI应用集群无需维护本地存储系统在机器学习工作流中部署Alluxio 可在标准的低成本存储部署运行 减少数据副本,统一数据访问
4、,按需自动加载、缓存替换 根据可用性和成本情况在任何地方部署GPU 加快训练数据访问,GPU利用率保持90%以上 提升工程效率,降低运维成本支持超高并发的模型服务(从训练集群到推理集群)模型训练模型部署扩展到100亿对象以上,满足AI需求根据使用模式实施数据预加载 生产环境下的部署时间降低至原先的 1/2-1/3 减轻网络带宽竞争,降低底层存储负载Alluxio使用前后效果对比GPU 摘要名称Tesla T4内存15GB计算能力7.5GPU 利用率17%预估SM效率17%预估实现占用率69%使用Tensor Core的内核时间0%类别时长(us)比例(%)平均步骤时间1,763,649,145
5、100Kernel299,168,90517Memcpy10,521,7220.6Memset39,4590运行时间3,043,1690.17DataLoader1,446,068,95682CPU 执行1,570,0760.09其他3,245,8580.18Resnet-503 epochsS3 Fuse使用前Resnet-503 epochsS3 FuseGPU 摘要名称Tesla T4内存15GB计算能力7,5GPU 利用率93%预估SM效率93%预估实现占用率68%使用Tensor Core的内核时间0.0%类别时长(us)比例(%)平均步骤时间334,274,946100%Kerne
6、l311,847,02393Memcpy10,500,1263Memset43,9460.01运行时间3,899,2411.17DataLoader3,343,3011CPU 执行1,648,3910.49其他2,992,9180.9DataLoader中的耗时从82%降至 1%,GPU利用率从17%提高至93%使用后Alluxio VS 直接访问S3 17 min总训练时间(3 epochs)93%GPU利用率(TensorBoard)Alluxio 85 min总训练时间(3 epochs)17%GPU 利用率(TensorBoard)S3 Allu