1、演讲人:陈世云 B站资深开发工程师B B站模型训练存储站模型训练存储加速实践加速实践背景Background01方案选型Design Selection02挑战及应对方案Challenges and Solutions03未来规划Future Plans04目 录CONTENTSB站模型训练存储加速实践背景B站模型训练存储架构B站模型训练存储加速实践数据归集和预处理阶段模型训练阶段 高吞吐、大容量,类似大数据批处理 统一的文件访问接口 高带宽,低延迟 确保快速加载数据,及Checkpoint快速和高频存档模型训练场景数据处理环节大模型训练对IO读写要求高,否则影响运行效率数据读写性能瓶颈大模型
2、训练对存储稳定性要求严格,一旦故障,直接造成算力损失稳定性问题大模型训练依赖大容量存储和海量小文件存储容量兼容多种数据源,通过POSIX协议访问,减少额外开发成本使用成本B站模型训练存储加速实践B站模型训练存储加速实践存储现状 容量:EB级 性能及稳定性HDD介质构建,吞吐低DN负载高存在不确定的性能风险(存在已知问题)节点故障率高(约5/日主机磁盘故障率)访问方式:Java/C SDK无法满足AI大模型训练需求方案选型Design Selection在明确了大模型训练对存储的需求之后,我们引入了基于Alluxio的存储加速方案B站模型训练存储加速实践专用存储的加速方案基于Cache的加速方案
3、商业存储-贵NAS/PFS 跨文件系统移动数据,复杂度高 数据一致性保障难 数据迁移和维护代价大NAS/PFS+冷热分层(闲置)SSD存储、按需缓存、高利用性 自动缓存加载和淘汰,数据管理复杂度低 支持Fuse,跨存储系统统一访问 内部已有团队小规模使用,风险低(延续性)Alluxio 缓存基于Alluxio的存储加速方案B站模型训练存储加速实践部署信息 与大数据业务co-located 的大集群部署方式 基于Alluxio 2.9.x优点 充分利用大数据闲置资源 大集群资源弹性好,管理代价低挑战 元数据瓶颈问题更加严峻 故障域变大,对恢复能力要求更强 远程访问潜在故障点更多,对容错能力要求更
4、高B站模型训练存储加速实践1.631878.87203135120075.25127318413644651928256K-单线程256K-多线程1M-单线程1M-多线程1G-单线程1G-多线程吞吐MB/s文件大小-线程数AlluxioAlluxio和和HDFSHDFS吞吐对比测试吞吐对比测试HDFSALLUXIO挑战及应对方案W o r k S u m m a r y A n d R e v i e w在引入了基于Alluxio的存储加速方案后,在实际上线生产进行大模型训练过程中,我们也面临了许多挑战,并采取了一系列的应对方案面对海量文件规模的 AI 训练场景,Alluxio集群元数据存储面
5、临容量天花板元数据容量与扩展性瓶颈为降低 AI 开发者的使用门槛,构建统一的接入平台,方便用户操作缓存数据。平台化功能拓展与生态集成高并发、大规模数据持续读写场景下,需保障 Alluxio 缓存系统的高可用性和抗压能力系统稳定性保障与优化Alluxio缓存集群存在一定的写入稳定性问题,容易影响模型训练数据输出,导致训练中断写入性能与一致性平衡B站模型训练存储加速实践123Alluxio集群采用Master/Slave架构,主节点稳定性影响所有缓存数据读写性能。主节点稳定性问题Alluxio作为缓存服务,经常需要同步数据,Load任务容易导致集群异常。Worker节点稳定性问题Alluxio缓存
6、集群异常影响大模型训练数据读取,造成资源浪费,需要有降级方案保障稳定性。数据读取容错能力B站模型训练存储加速实践系统稳定性保障与优化主节点稳定性问题 重启/主节点切换加速 增加基于时间的Checkpoint触发机制 切主时规避Checkpoint 状态的节点 auditlog/journal/metastore日志拆盘(NVME)主从节点数据一致性 开启worker节点上报到所有状态master上 Journal日志同步Block新增信息 Worker节点等待Follower Master节点Journal日志回访完成后再开启block上报 主节点重启时间Load任务导致worker稳定性问题