1、Big Data Empower Large Models张松昕|南方科技大学演讲嘉宾张松昕南方科技大学研究学者南方科技大学统计与数据科学系研究学者,UCloud顾问资深算法专家,曾任粤港澳大湾区数字经济研究院访问学者,主导大模型高效分布式训练框架的开发,设计了SUS-Chat-34B的微调流程,登顶Open LLMLeaderboard、Opencompass同参数量级模型榜首。打磨一流大模型预训练与微调技术构建先进大模型训练基础设施2/38Main Point百亿参数级别通用领域语言模型 基于 Scaling law构建数据筛选策略 快速迭代构造十亿token量级高质量数据 自研分布式框架
2、助力模型高效训练 全尺寸模型的训练成本线性拓展Trained on ,about .Completed during collaboration 3/38SUS-Chat:Instruction Tuning Done Right 发布时,在OpenLLMLeaderboard40,000+的模型中排名第,OpenCompass中Chat模型排名第OpenCompass(1227)Open LLM Leaderboard(1205)4/38国内外领先的通用语言模型GPT-491.445.886.7OrionStar-Yi-34B-Chat54.3612.862.88Yi-34B-Chat63.
3、7610.0261.54Qwen-72b-Chat76.57Deepseek-67b-Chat74.4529.5669.73 在难度最大的数学推理任务中,位居世界第一 逻辑推理的综合能力达到世界领先水平SUS-Chat-28.8 67.625/38国内外领先的通用语言模型 唯一支持6D并行的分布式训练框架 高效训练算子适配与优化 无效Padding计算裁剪Colossal-ai 5D+Zero 40%26106/38Effcient distributed training infraSequence-aware Just-in-time CompilingJitted codes for r
4、ank 0Jitted codes for rank 1Jitted codes for rank 2Jitted codes for rank 3Jitted codes for rank 4Jitted codes for rank 5Jitted codes for rank 6Jitted codes for rank 7Testing on a single HGX(8*A100 80GB).7/38Rank 7lRank 6lRank 5lRank 4lRank 3lRank 2lRank 1lRank 0Comm.Comm.Comm.Comm.Comm.S2S3S5S4S1S6E
5、xecuting Jitted codes on each ranksS5S6 Deepspeed-UlyssesMegatron-LMHSAPOut of MemoryS2S4Comm.Comp.S2S2S3S3S5S5S4S2P2P communicationsColAIPacked SequenceS3Comp.Comm.Comp.Comm.Comp.Comp.Comp.Batched DataLocalComp.S3S2GPUGPUGPUGPUCopy locallyGPUGPUGPUGPUComputingComp.S6S1S1PADScaling exact attention t
6、o ultra long sequence 知识检索增强问答 长序列问答支持(32k tokens)多引用来源的知识推理、总结 实现复杂表格内容识别 行业问题准确回答(准确率90%)34B基座模型综合效果 RAG SystemLLM垂域数据集构建模型部署、概念验证 demoQwen2-VL+Grounding-Dino Chat grafana继续预训练+指令微调(LoRA、全参)模型选型、快速迭代Yi-34B Qwen2.5-72B Qwen2-VL.垂域 BGE 模型训练 for RAG数据质量管控文档切片 过滤与优化问答对数据 自动化构造8/38指令进化PDF 解析大模型训练技术赋能垂直