《蚂蚁大模型存储加速实践-刘键.pdf》由会员分享,可在线阅读,更多相关《蚂蚁大模型存储加速实践-刘键.pdf(25页珍藏版)》请在三个皮匠报告上搜索。
1、 蚂蚁大模型存储加速蚂蚁大模型存储加速PCache蚂蚁大模型存储加速团队 1.1.大模型存储的问题和挑战大模型存储的问题和挑战2.2.蚂蚁蚂蚁 AIAI 存储加速方案存储加速方案 (整体架构+各场景方案)3.3.未来计划未来计划1.1.大模型存储的问题和挑大模型存储的问题和挑战战训练任务训练任务各各 IOIO 阶段的影响阶段的影响数据加载阶段(数据读取数据加载阶段(数据读取 +预处理)预处理)数据读取:IO wait 会导致 GPU 资源浪费。预处理:计算性能不足会导致 GPU 资源闲置。CheckpointCheckpoint 阶段阶段 写 chkpt:IO wait 会导致 GPU 资源浪
2、费。降低写入频率同样会导致 GPU 资源浪费。e.g.,chkpt/3h,故障时浪费 3h GPU 资源。文件类型文件大小数量读写操作图片1KB100KB百亿级顺序读视频10MB1GB千万级随机读Checkpoint1GB10GB百万级顺序读、写NLP 文本10MB10GB千万级顺序读,随机读列存结构化数据100MB1GB百万级顺序读,随机读AIAI 数据读取的挑战数据读取的挑战数据规模大数据规模大 多模态任务的训练集达到百亿,PB级数据。数据数据&读写操作类型多读写操作类型多 图片、视频、文本、checkpoint,以及结构化数据等多种类型。涵盖顺序读和随机读,甚至在一次数据加载中。流量特性
3、复杂流量特性复杂 各类大模型训练任务数据读取时流量特性多样。CheckpointCheckpoint 写入的挑战写入的挑战Checkpoint sizeCheckpoint size 不断增大,对写入性能要求越来越高(可靠性不断增大,对写入性能要求越来越高(可靠性 +吞吐)吞吐)千亿参数 checkpoint TB级 万亿参数 checkpoint 10TB级为了减少为了减少 GPUGPU 故障对训练的影响,故障对训练的影响,checkpointcheckpoint 频率越来越快频率越来越快 从天级-小时级-分钟级-每个 step 虽然 FSDP 等并行模式可以减少每卡的写入量,但是 per
4、step 的写入频率对存储高并发下写入性能的要求仍然非常高。多云数据互通问题多云数据互通问题算力资源紧张,多算力中心(私有云算力资源紧张,多算力中心(私有云 +公有云)公有云)数据分布在多中心,跨云访问效率低。缺少数据同步工具,导致训练效率低。数据管理混乱,多云存在重复数据,导致存储空间浪费。2.2.蚂蚁蚂蚁 AIAI 存储加速方存储加速方案案PCachePCache 整体架构整体架构多类型+多语言API,支持结构化和非结构化多计算场景的缓存加速需求。基于联邦集群的横向扩展,Proxy 统一数据操作入口屏蔽用户对联邦集群的感知。Master 负责元数据服务,支持内置存储和分离 KV 两种模式。
5、Worker 负责数据块的读写、副本、生命周期、存储分层管理,以及 UFS 的管理。云原生存储支持多类型持久化存储分布式数据集成系统用户接入用户接入PCachePCache RuntimeRuntime基础设施层基础设施层AIAI 数据链路数据链路&部署部署架构架构部署形态的变化,存储分离部署形态的变化,存储分离-混部混部 低成本:充分利用 GPU 机器上的存储和计算资源。高性能:Co-locate 带来的局部性能提升,尤其在写场景。扩展性:存储能力能够随着训练集群规模扩大而自然增长。多模态场景碰到的问题多模态场景碰到的问题挑战挑战1 1:支持海量图片的训练数据:支持海量图片的训练数据 如何支
6、持亿级甚至百亿级的元数据管理。如何保障百亿规模下的元数据读写性能。挑战挑战2 2:多模态场景下数据读取性能:多模态场景下数据读取性能 图片、视频、音频、文本等不同模态数据读取时如何保障顺序+随机混合读取的性能。文件折叠文件折叠 减少元数据规模减少元数据规模性能提升性能提升大幅减少元数据数量和读取请求。线上的多模态任务的数据读取性能提高 24 倍。训练效果训练效果从 training loss 等指标来看,从文件变为 chunk 级别的 shuffle,对训练效果没有影响。多维度折叠多维度折叠除了数量单一维度的折叠外,现在也出现了越来越多的多维折叠需求,e