《Alluxio AI:新一代AI_ML训练中台的数据I_O解决方案.pdf》由会员分享,可在线阅读,更多相关《Alluxio AI:新一代AI_ML训练中台的数据I_O解决方案.pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、AlluxioAlluxio 下一代高性能数据访问平台下一代高性能数据访问平台Alluxio核心研发工程师麦嘉铭现状现状:纷繁复杂的数据平台纷繁复杂的数据平台同置同置(Co-located)(Co-located)计算引擎&HDFS 紧密耦合在一起在同一个集群上实现计算引擎与HDFS的解耦MR/HiveHDFSSpark/PrestoHDFS解耦解耦(Disaggregated)(Disaggregated)将需要弹性伸缩的负载和数据迁移进公有云或者是私有云对应用透明,充分支持Presto,Spark,Impala,TensorFlow,PyTorch允许从传统大数据存储向对象存储过渡向对象存
2、储过渡向对象存储过渡混合云化部署混合云化部署支持更多计算框架支持更多计算框架混合异构混合异构 (Hybrid)(Hybrid)大数据大数据/AI之路的架构演进之路的架构演进数据系统日益丰富数据系统日益丰富数据获取的碎片化数据获取的碎片化业务团队对数据统一访业务团队对数据统一访问的强烈要求问的强烈要求存储与计算分离的存储与计算分离的架构创新架构创新分割的数据世界分割的数据世界数据复制数据复制&显性数据同步的复杂性显性数据同步的复杂性数据分析的多样性数据分析的多样性&数据平台适配的复杂性数据平台适配的复杂性技术变迁导致的多平台混合技术变迁导致的多平台混合架构架构&迁移的复杂性迁移的复杂性复杂的数据
3、平台复杂的数据平台低效低效I/O I/O 低性能低性能GPUGPU昂贵昂贵&稀缺稀缺无法随时使用无法随时使用专用存储价格昂贵专用存储价格昂贵$基础设施问题基础设施问题人工智能将在2029年左右达到人类智力水平。进一步展望,至2045年,智能技术和人类文明所创造的生物机器智能的能力将被扩大10亿倍。我们正在见证全球性数据中心重组的需求井喷,这场长达十年的对现有数据中心的回收和利用,终将迈向加速计算的转型之旅。Ray Kurzweil美国投资人和未来学家黄仁勋Nvidia CEOAI/ML的竞争对企业至关重要的竞争对企业至关重要重塑企业数据基础架构更是大势所趋重塑企业数据基础架构更是大势所趋更快的
4、迭代更快的迭代速度速度更高的准确性和更高的准确性和可追溯性可追溯性快速增长快速增长的数据集的数据集更快的模型更快的模型建设周期建设周期GPUGPU很稀缺很稀缺GPUGPU很昂贵很昂贵GPUGPU的利用率的利用率很低很低少少贵贵低低管理数据副本的复杂管理数据副本的复杂数据工程方案数据工程方案 专用存储专用存储失控的云和基础失控的云和基础设施的费用设施的费用 业务压力业务压力复杂且高昂的解决方案复杂且高昂的解决方案GPUGPU的烦恼的烦恼企业搭建企业搭建/优化优化AIAI高性能数据访问平台所面临的挑战高性能数据访问平台所面临的挑战大数据分析大数据分析&AI/ML&AI/ML领域常见的痛点领域常见的
5、痛点AI/MLAI/ML场景场景大数据分析大数据分析/ETL/ETL任务任务GPUGPU短缺短缺GPUGPU利用率低利用率低模型训练、模型上线时间长模型训练、模型上线时间长跨集群、跨地域、跨云数据访问跨集群、跨地域、跨云数据访问不同存储不同存储/计算引擎的复杂技术栈计算引擎的复杂技术栈昂贵昂贵/复杂的数据移动和数据副本复杂的数据移动和数据副本训练过程中大量的远程读取数据移动/复制带来副本问题AlluxioAlluxio架构及主要功能架构及主要功能源自美国伯克利源自美国伯克利大学大学AMPLab开源项目开源项目1000+节点节点百度最大部署规模10亿文件亿文件由Alluxio2.0版本支持201
6、4201920237/10 头部互联网公司头部互联网公司 部署 AlluxioAliPay 80%模型训练模型训练 知乎知乎LLM模型训练,Alluxio提供支持数据爆炸数据爆炸大数据和分析的兴起云采用云采用单云到混合云、多云,跨区域深度学习和深度学习和AI大模型训练和部署 1000+开源贡献者开源贡献者1000+参会人参会人 数据编排峰会100%Presto Meta与Alluxio全面集成9/10 头部互联网公司头部互联网公司 部署 Alluxio支持千亿小文件支持千亿小文件AlluxioAlluxio 技术发展历程技术发展历程分布式缓存分布式缓存全局数据访问全局数据访问数据管理数据管理企