1、Alluxio 3.0分布式数据湖/AI缓存架构的探索和实践Alluxio Staff Engineer,Alluxio PMC Member刘嘉承数据湖/AI世界现状:纷繁复杂的数据平台带来的新挑战Alluxio开源项目、公司历史及开源社区过去十年的演进Alluxio架构、主要功能及核心技术革新Alluxio 2.x-3.x 的演进过程及效果内容概览现状:纷繁复杂的数据平台ALLUXIO 4数据系统日益丰富数据获取的碎片化业务团队对数据统一访问的强烈要求存储与计算分离的架构创新分割的数据世界ALLUXIO 5数据复制&显性数据同步的复杂性数据分析的多样性&数据平台适配的复杂性技术变迁导致的多
2、平台混合架构&迁移的复杂性复杂的数据平台ALLUXIO 6低效I/O 低性能GPU昂贵&稀缺无法随时使用专用存储价格昂贵基础设施问题$大数据/AI之路的架构演进ALLUXIO 7同置(Co-located)计算引擎&HDFS 紧密耦合在一起在同一个集群上实现计算引擎与HDFS的解耦MR/HiveHDFSSpark/PrestoHDFS解耦(Disaggregated)将需要弹性伸缩的负载和数据迁移进公有云或者是私有云对应用透明,充分支持Presto,Spark,Impala,TensorFlow,PyTorch允许从传统大数据存储向对象存储过渡向对象存储过渡混合云化部署支持更多计算框架混合异构
3、(Hybrid)分布式缓存全局数据访问数据管理企业安全与合规性能和可扩展性DevOps能力Alluxio 数据平台云本地混合跨云分析框架AI/ML 框架Alluxio项目及公司简介Alluxio项目与公司历史源自加州大学伯克利分校AMP实验室(原名Tachyon Nexus),李浩源博士的博士论文课题,李浩源现任Alluxio公司董事长兼CEO20142015Alluxio项目自开源以来已经在全球有超过300个组织,1100+贡献者,并于2015年成立公司推动Alluxio项目的产品与商业化,2020年在Google OpenSSF最有影响力的Java开源项目中排名第9面向异构基础设施环境(本
4、地、混合云、公有云)实现高效的数据统一管理编排,服务大数据与AI应用!20182019201820202021Alluxio China 2021Alluxio 在2021年起开始大力拓展国内市场业务,并将北京设立为中国区总部,成立本地化的研发团队,以快速响应并满足众多国内企业的个性化需求。Alluxio 技术发展历程源自美国伯克利大学AMPLab开源项目1000+节点百度最大部署规模10亿文件由Alluxio2.0版本支持2014201920237/10 头部互联网公司 部署 Alluxio知乎LLM模型训练,Alluxio提供支持数据爆炸大数据和分析的兴起云采用单云到混合云、多云,跨区域深
5、度学习和AI大模型训练和部署 1000+开源贡献者1000+参会人 数据编排峰会100%Presto Meta与Alluxio全面集成9/10 头部互联网公司 部署 Alluxio支持千亿小文件ALLUXIO 12正在使用Alluxio的公司INTERNETPUBLIC CLOUD PROVIDERSGENERALE-COMMERCEOTHERSTECHNOLOGYFINANCIAL SERVICESTELCO&MEDIALEARN MOREAlluxio架构及主要功能数据湖&AI/ML领域常见的痛点AI/ML场景数据湖场景?GPU短缺?GPU利用率低?模型训练、模型上线时间长?跨集群、跨地域
6、、跨云数据访问?不同存储/计算引擎的复杂技术栈?昂贵/复杂的数据移动和数据副本训练过程中大量的远程读取数据移动/复制带来副本问题客户端缓存在计算应用内,使用本地存储或内存提供本地速度缓存集群缓存在计算集群内,或多个相近的计算集群共享,提供网络速度缓存如果缓存集群下线,客户端也可以直接连接底层存储,保证可用性Alluxio clientlocal cacheAlluxio Workerlocal cacheClient cache:计算应用内,计算节点本地存储Cluster cache:计算集群内或独立缓存集群RemoteStorageS3,HDFS Alluxio 主要功能-多级缓存Prest