《汤文君-GenAI时代从容应对数据驱动的AI带来的IO挑战.pdf》由会员分享,可在线阅读,更多相关《汤文君-GenAI时代从容应对数据驱动的AI带来的IO挑战.pdf(37页珍藏版)》请在三个皮匠报告上搜索。
1、GenAIGenAI时代,时代,从容应对数据驱动的从容应对数据驱动的AIAI带来的带来的I/OI/O挑战挑战演讲人:汤文军Alluxio 资深架构师01010202030304040 0目录AI AI 所带来的的所带来的的IOIO挑战挑战IOIO挑战的解决思路挑战的解决思路AlluxioAlluxio介绍介绍AlluxioAlluxio 技术架构技术架构典型应用场景典型应用场景LLM 性能受算力性能受算力、数据规模和参数驱动数据规模和参数驱动=I/O 变得至关重要变得至关重要Scaling Scaling LawLaw:大语言模型(LLM)训练的性能受到训练过程中不断增长的 token 数量、
2、模型检查点(checkpoint)大小的驱动。*来源:OpenAI:Scaling Laws for Neural Language Models:https:/arxiv.org/pdf/2001.08361.pdfToken 呈指数级增长呈指数级增长=访问数据集需要更快的访问数据集需要更快的I/OLLM 训练需要大量数据(数十亿至 15 万亿 token)。随着模型扩容,需要更快、更高效的 I/O 来应对数据集的快速增长。来源:Will we run out of data?Limits of LLM scaling based on human-generated data:https:
3、/arxiv.org/pdf/2211.04325*图:人工生成公共文本的有效存量以及用于知名大语言模型训练的数据集规模的预测模型规模呈指数级增长模型规模呈指数级增长=更快的更快的Checkpointing大模型的规模从 7B 到1T不等随着大模型参数的增多,为避免训练进度丢失,训练过程中进行频繁的 checkpointing 十分关键要高效管理和存储checkpoint,确保模型更新不会成为训练速度的瓶颈,I/O 性能至关重要来源:*HuggingFace:https:/huggingface.co/blog/large-language-models*Meta:https:/ 模型规模逐年
4、增长情况*图:训练作业故障 面向 AI 的数据编排平台Alluxio 数据平台架构数据平台架构高高性性能能的的数数据据访访问问全局数据访问全局数据访问Alluxio Alluxio 数据平台数据平台云云本地本地混合云混合云跨云跨云统统一一的的全全局局视视图图AI/MLAI/ML框架框架分布式缓存分布式缓存数据管理数据管理DevOpsDevOps能力能力性能和可扩展性性能和可扩展性企业安全与合规企业安全与合规Alluxio AI 模型训练场景模型训练场景2-8x2-8x 数据访问速度提升数据访问速度提升集训可扩展性高、集训可扩展性高、训练任务容错性高训练任务容错性高模型迭代更高效模型迭代更高效降
5、低数据工程降低数据工程复杂性和成本复杂性和成本 去中心化架构,支去中心化架构,支持持100100亿以上对象亿以上对象在机器学习工作流中部署在机器学习工作流中部署Alluxio降本 可在标准的低成本存储部署运行增效 训练数据访问加速,GPU利用率保持90%以上灵活 减少数据副本,统一数据访问,灵活对接GPU集群易用 按需自动加载、缓存替换,简化运维复杂度支持超高并发的模型服务(从训练集群到推理集群)支持超高并发的模型服务(从训练集群到推理集群)模模型型训训练练模模型型部部署署扩展到扩展到100100亿对象以上,满足亿对象以上,满足AIAI需求需求快速部署 生产环境下的部署时间降低至原先的 1/2
6、-1/3规避瓶颈 减轻网络带宽竞争,降低底层存储负载高效管理 根据使用模式实施数据预加载核心架构核心架构&技术技术ML/AI GPU 训练对训练对 IO 的要求的要求编程接口:POSIX 子集数据格式:结构化(Parquet)和非结构化(音频、图片、视频、文本)元数据可扩展性:支持数十亿个文件(常见于计算机视觉/多模态训练)I/O 并发性:高并发的读取访问可靠性:在持续数天或数周的训练过程中保持高可靠性写入:快速 Checkpointing(顺序写)让我们回顾一下关键的设计选择让我们回顾一下关键的设计选择基本架构基本架构:完全基于一致性哈希的分片完全基于一致性哈希的分片AAlluxio Wor