《阿里云:AI模型时代的多模态数据存储管理和应用(31页).pdf》由会员分享,可在线阅读,更多相关《阿里云:AI模型时代的多模态数据存储管理和应用(31页).pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、AI 模型时代的多模态数据存储、管理和应用Alex Chen阿里云智能集团-研究员2026 中国 AI支出占亚太的 58%智能客户服务,业务创新和自动化,销售流程,IT 优化,欺诈分析2026 年亚太地区 AI 支出5 年复合增长 24.5%*Source:IDC Worldwide Artificial Intelligence Spending Guide,2023495 TFLOPS2x200G RDMA 32 Core144 TB Mem 1EFLOPSGPUDPUAI 服务器万卡集群XX分布式训练容错多租户隔离和调度规模复杂度软件复杂度架构复杂度原始数据集训练数据集数据预处理模型训练
2、模型验证反复训练优化不断训练优化数据收集场景化精调模型验证模型部署推理内容安全模型部署服务推理结果输出输入内存墙:模型参数量增长 10 倍算力:模型计算量增长 68 倍多模态:从单一的文本(2 KB)变成文本、图片(200 KB)、音视频(MB)混合单个样本的数据量(Token)大幅增加 模型、参数量模型参数计算量GPT-3(175B)350GB314 ZFLOPSGPT-4(1800B)3.6TB21500 ZFLOPSGPT-3GPT-3.5GPT-4-8kGPT-4-32k单个样本的Token 量20494096819232768GPT-3 模型训练内存需求=参数+梯度+优化器+其他 2
3、.8TB 80GB(A100 显存大小)GPU 显存几乎没有变化,GPU 单卡的算力只增长了 3 倍CPU 卡显存大小计算量A100/A80080GB156 TFLOPSH100/H80080GB459 TFLOPS训练框架利用数据并行、模型并行、流水线并行等技术将数据、模型切片到 GPU 卡上分布式计算每个 iteration 结束时利用高速网络在所有 GPU 上 all reduce 同步模型参数GPU 卡规模越大,对高速网络、可靠存储要求更高算法工程师要经常检查模型质量,如果学习率不够就要利用 checkpoint 回溯、参数调优后再继续训练Initialize trainingList
4、 files in dataset and shuffle/随机打散数据Prepare MP&PP/规划模型并发,流水线并发Repeat(for each batch):/迭代多轮 iterationRead file for the batch/读取一批数据用于训练TrainingAll reduce/所有 GPU 同步模型参数Checkpoint if necessary/周期性 checkpointCPU1b 模型切片,加载到 GPUGPT-3(175B)GPT-4(1800B)模型分片FwdBack数据分片4)all-reduce,更新模型参数3)SGDCPUCPUCPUall-red
5、uce模型并行数据并行5)周期性生成checkpoint1)数据shuffle、切片2)读取数据集分片iterations文件类型文件类型样本数据集:海量小文件,比如 Laion-5B 数据量 250TB,涉及文件数约 100 亿IO Pattern每个 GPU 32 路并发读集群并发读 6百万 QPSIO Pattern大块写模型文件,16 个 GPU 节点 30 秒写完模型文件,单节点写吞吐 1GB/s每张 GPU 卡单路大块写优化器状态文件,2048 卡并发写总带宽 48GB/s文件类型文件类型(以以 200B 参数参数、2064 卡为例卡为例)模型文件:16x8 GPU 节点,128
6、个 3GB 文件,约 384GB优化器状态文件:2048 GPU 的 zero 优化器状态,2048 个 1.2GB 文件,约2.4TBIO Pattern每张 GPU 卡单路大块读模型文件、优化器状态文件,并发读总带宽 60GB/sCPUsdatapartdatapartdatapartdatapartdatasetCPUsoptimstatemodeloptimstateoptimstatecheckpointCPUsoptimstatemodeloptimstateoptimstatecheckpoint视频文件小文件(特征帧)读取文件写小文件小文件读取小文件小文件删除小文件某客户的视频