《大模型 AI 训练的数据存储加速-肖文聪.pdf》由会员分享,可在线阅读,更多相关《大模型 AI 训练的数据存储加速-肖文聪.pdf(35页珍藏版)》请在三个皮匠报告上搜索。
1、大模型AI训练的数据加速肖文聪2024.4.13 Qcon 北京站肖文聪 阿里云-PAI机器学习 高级技术专家 负责PAI灵骏GPU集群管理、容错和稳定性、AI数据加速、LLM推理等方向 在OSDI/NSDI/ATC等系统顶会上发表论文30余篇,引用2000+目录 大模型存储需求背景 通用存储架构下的挑战 改进的系统设计 阿里云DatasetAcc产品快速增长的大模型规模Qwen 72BMistral 8*22BGPT4 1.8T(猜测)至今国内开源模型仍无法追平2020年的GPT3GPT5?T 快速增长的大模型规模Qwen 72BMistral 8*22BGPT4 1.8T(猜测)Qwen7
2、2B:一个模型Checkpoint是150GBGPT4:Checkpoint大小预计是3.75TB3.75TBGPT5?T 快速增长的大模型规模Qwen 72BMistral 8*22BGPT4 1.8T(猜测)Qwen72B:一个模型Checkpoint是150GBGPT4:Checkpoint大小预计是3.75TB3.75TB“秒级服务扩容?!”GPT5?T 激增的AI训练数据 GPT3约570GB GPT4预估20TB SORA预估100TB 多模态数据 文本 图片 视频 合成数据0.1110100100010000100000GPTGPT2GPT3Chatgpt3.5Chatgpt4S
3、ORA201820192020202220232024#of Tokens(B)OpenAI模型训练数据大小*Chatgpt3.5,Chatgpt4,SORA均引用互联网公开讨论猜测数据规模Scaling Law 算力、数据、模型越大,效果越好!算力:千卡-万卡 数据:300050000B tokens 模型:7B-32B-200B大模型带来的规模化数据 模型规模增大(Ckpt在TB级别)训练数据的增长(RawData在100TB级别)多模态融合 合成数据 数据增强回顾AI大模型训练流程数据划分随机访问迭代训练周期性模型快照Ckeckpoint(Ckpt)回顾AI大模型训练流程数据划分随机访问
4、迭代训练周期性模型快照Ckeckpoint(Ckpt)读数据(meta)读数据(data)写数据(data)挑战1:读数据 通用存储系统 强一致Meta管理 高可用的三副本云存储:OSS/NAS等均沿用类似于GFS的架构设计挑战1:读数据 通用存储系统 AI小文件随机访问 Meta访问压力 有限的IOPS*OSS:10K NAS:100K云存储:OSS/NAS等均沿用类似于GFS的架构设计*单台GPU机器训练ResNet50需求约10K image/s挑战2:写数据 大规模分布式AI训练(e.g.,千卡规模)硬件故障不可避免 通常采用周期性Ckpt进行容错 典型场景30min保存一次全量模型C
5、kpt E.g.,150GB for Qwen 72B 模型训练保存训练保存训练重启训练进度损失挑战2:写数据 大文件写入带宽Bound 高带宽:低带宽:带宽 vs 成本 高带宽全闪存储带来昂贵的成本训练保存训练保存训练训练保存训练训练保存带宽(GB/s)价格(元/GB月)OSS(对象存储)1.250.033CPFS(全闪)101.6倍数848.48*以阿里云乌兰察布为例挑战3:性能隔离 作业异常 迭代时间变长 GPU利用率下降 性能抖动训练吞吐(sample/s)时间千卡大模型训练挑战3:性能隔离训练吞吐(iter/s)时间千卡大模型训练分 布 式 文 件 存 储 系 统数据清洗数据增强数据
6、分析根因:文件存储系统并非为AI任务设计 AI训练要求“随机”访问数据对通用存储系统不友好 AI训练带来大量爆发式Ckpt流量 AI任务是大规模同步训练易受影响 AI任务的特性没有被文件系统很好的利用AI训练真的需要通用存储吗?通用存储系统对象存储(OSS)、文件系统(NAS)AI训练任务AI训练真的需要通用存储吗?通用文件系统的弊端 强一致性限制了架构的可扩展性 多副本限制性能抬高成本 读写混合潜藏着干扰 缺乏任务间隔离能力ConsistencyReplicaMetaDataManagementRevisit the Core Concepts of File System探讨:一个可能的缓