《李龙飞-性能驱动的大模型架构探索——网络架构及推理架构.pdf》由会员分享,可在线阅读,更多相关《李龙飞-性能驱动的大模型架构探索——网络架构及推理架构.pdf(33页珍藏版)》请在三个皮匠报告上搜索。
1、ML-SummitML-Summitwww.cpp-www.ml-summit.orgwww.gosim.orgwww.pm-summit.orgML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit李李龙龙飞飞 蚂蚂蚁蚁资资深深算算法法专专家家在蚂蚁工作十年,主要研究方向包括:逻辑学习,因果学习,自动学习,大模型等方向,在NeurIPS,ICML,KDD,SIGIR等会议上发表论文70余篇余篇,主导参与了蚂蚁内部的多个核心平台和项目,参与蚂蚁百灵大模型的开发,主导大模型离线推理框架flood开发:https:/ 蚂蚁集团资深算法专家ML-
2、SummitML-Summit蚂蚁大模型技术:聚焦应用场景,做专业、好用、可靠的行业应用大模型规模效率可信ScaleEfficiencyTrustworthinessML-SummitML-SummitLLM 性能需求训练后训练预训练RL推理评测样本合成在线服务训练端预训练对算力的需求巨大,需要高效的算法框架和训练框架来进行支持。Test time scaling 的发展,推高了后训练和 RL的重要性,在训练端对推理性能的诉求也变的更强烈。推理端在模型开发过程中需要大量的评测和合成样本,资源消耗巨大,但这些场景对 ttft 不敏感,更关注于整个系统的吞吐。RL系统对于推理的需求较高,同样更在乎
3、吞吐。ML-SummitML-Summit01.大模型训练中的架构选择和框架对齐02.更高效的 attention 机制探索03.高效离线推理框架-flood目录ML-SummitML-Summit大模型训练中的架构选择和框架对齐-Ling-lite&plus01ML-SummitML-SummitLing-lite&plus 概览 Ling-Lite:16.8B 激活 2.8B Ling-plus:290B 激活 28.8B Ling-max:?(WIP)预训练:9T 高质量语料 后训练:数百万指令数据 首个在非 Hopper 架构加速卡上预训练的 300B MoE 模型 跨平台预训练无缝切
4、换,Loss 误差小于0.1%性能对齐同尺寸下 SOTA 模型如 qwen2.5 72B、ds v2.5、llama 3.1 70B 等 更好的工具使用BFCL_v2&TevalMoE 架构跨平台训练SOTA 性能(同尺寸)ML-SummitML-SummitMoE 架构From DeepSeekMoE整体架构参考 DeepSeekMoELing-lite:64 个专家激活 6 个,共享 2 个Ling-plus:64 个专家激活4个,共享 1 个引入 NormHead 提升训练稳定性随机路由 warmup 保证训练初期稳定超参数(LR/BS)在不同 FLOPs 下存在最优设置区间对 Dens
5、e/MoE 架构,LR/BS 均服从对数线性关系模型高矮胖瘦,对最优 BS/LR 影响不大数据分布的小范围调整,对最优 BS/LR 影响不大MoE scaling law:超参设置、架构选择、训练监控的标准Loss2FLOPs 曲线决定了模型架构的“效率”对数反比函数具有更高的Loss外推拟合精度效率杠杆:同 Loss 下,MoE 激活 FLOPs 与 dense 的比值Ling MoE 架构在不同 FLOPs 下有 3-4 倍的效率杠杠ML-SummitML-Summit跨平台训练对齐DLRover:跨平台部署训练框架DeepSpeed、Megatron-LM、Mindspeed 等XPUT
6、imer:轻量性能监控与训练诊断Pcache:全闪存分布式缓存系统DTM:跨集群海量数据/CKPTs 同步Flood:高性能离线批量推理框架跨平台基础算子对齐linear、matmul 等分布式训练框架对齐micro batch size修复Router TP修复NormHead修复NormHead Grad修复.训练时 Loss 尖刺跟模型状态、数据状态、硬件稳定性等都有关系Loss 尖刺调过与重试机制Grad 尖刺处理机制小模型 loss/评测探针机制跨平台训练与监测算子/框架对齐训练稳定性ML-SummitML-Summit更高效的 attention 机制探索-线性 attention