《【Alluxio】Alluxio在高性能AIML数据访问中的应用.pdf》由会员分享,可在线阅读,更多相关《【Alluxio】Alluxio在高性能AIML数据访问中的应用.pdf(21页珍藏版)》请在三个皮匠报告上搜索。
1、Alluxio在高性能AI/ML数据访问中的应用2023/12/09目录 AI/ML 面临的挑战及数据架构发展 Alluxio 高性能AI/ML数据编排/访问平台 Alluxio 在高性能AI/ML数据访问中的应用AI/ML 面临的挑战及数据架构发展PART 1AI/ML 面临的挑战及问题?GPU短缺+GPU利用率低+AI技术设施昂贵+海量数据访问低效+模型训练/上线时间长AI计算/机器学习GPU短缺:”目前 GPU 比毒品更难获得”(Tesla 埃隆马斯克);即使是大型云供应商,分配也需要12个月或更长时间GPU利用率低:即使得到了GPU,GPU利用率也很低(可能由于数据访问问题);GPU花
2、费时间等待数据加载/预热,而不是计算AI基础设施昂贵:GPU资源及专用高性能存储等基础设施价格高昂,造成大规模AI/ML计算的成本问题海量数据处理/访问低效:通用人工智能通常需要海量的数据做支撑,这也要求企业有效地存储、管理及高性能访问大量数据模型训练/上线时间长:AI/ML数据访问/服务性能减缓了AI/ML模型训练及模型上线时间,影响企业快速构建部署模型的能力AI/ML 需要什么样的存储/缓存/数据访问系统?目前主流可选方案高性能并行存储系统:GPFS/CPFS,Lustre等 优点:高性能,POSIX兼容性好 缺点:成本较高;扩展性较差分布式对象存储系统:AWS S3,OSS,MinIO等
3、 优点:成本很低,扩展性好缺点:性能一般;POSIX兼容性受限存储中间件/加速系统:JuiceFS,JindoFS等 优点:成本适中,性能较好 缺点:数据格式私有;数据治理/运维成本高数据编排/缓存系统:Alluxio优点:成本较低,性能较好,数据运维简单 缺点:POSXI兼容性受限AI/ML模型训练需要的存储/缓存/数据访问系统架构选型标准?总体成本:使用较低成本构建面向AI计算任务的高性能数据访问平台-对象存储+缓存系统性能及协议支持:提供高性能数据访问接口,多数据访问协议兼容(POSIX,S3,HDFS等)数据格式及架构开放:支持透明数据格式(保持原始存储目录和文件格式不变);无厂商/技
4、术锁定数据治理/运维:降低数据治理/数据运维对训练流程/效率影响(最少数据迁移时间、简化Data Loader,Data Pipeline流程,减少运维等)Alluxio 在 AI/ML 技术栈中的架构定位持久化存储层Alluxio 高性能数据访问/编排层AI/ML计算框架/推理引擎AI/ML 统一编排层Alluxio 高性能AI/ML数据访问/编排平台PART 2Alluxio Enterprise AI 3.0 赋能高性能AI/ML计算数据处理特征工程模型训练模型部署原始数据处理过数据特征数据训练数据模型模型/缓存命中结果新结果Alluxio Enterprise AI 3.0基于模型训练
5、和推理的数据访问模式提供高性能数据服务针对大语言模型(LLM)、大规模自然语言处理(NLP)及计算机视觉(CV)等AI/ML计算提供高性能数据访问Alluxio 高性能AI/ML计算应用参考架构数据处理使用 Alluxio 作为数据访问网关或写缓存特征工程使用Alluxio作为在线存储或者离线存储模型训练使用 GPU 读取训练数据、视觉(图像)或 NLP/LLM(文本)模型部署使用经过训练好的模型进行推理或预测Curated/Processed DataModelSpark or PyTorchS3 or HDFSSparkSpark or PyTorchLanding/Raw DataS3
6、or POSIXS32FeatureProcessed dataModelData&FeatureResultModelModelRegion BRegion CRegion ATopologyStorageComputeStageNamespace or Write Cache1Read Cache2Data MigrationAlluxio 产品核心能力/特性及技术价值Alluxio面向AI/ML场景的应用Alluxio面向AI/ML场景的高性能数据访问加速基于Alluxio的 AI/ML数据访问技术架构及业务价值加速模型训练/上线速度提高GPU利用率30%90%降低API改造/适配成本减