报告预览

PAI-Megatron-Patch：灵骏集群训练 LLMs.pdf

编号：149634

PDF 31页 14.96MB 下载积分：VIP专享

下载报告请您先登录！

PAI-Megatron-Patch：灵骏集群训练 LLMs.pdf

1、PAI LLMContents020305010401XLABXPSPAI-TensorflowPAI-PyTorchPAI-StudioDLC DSW EASNLP/CV/千亿参数 ODLM6OFA Swin-TransformerPAIAI 9SLA 数据训练推理稳定性PAI面向LLM全链路的一站式智算平台02-Data Deduplication from Google(2022/03)-Text Deduplication from BigCode(2023/05)-The RefinedWeb for Falcon LLM(2023/06)高质量的文本输入可以获得更好的大语言模型 j

2、ieba MinHashMinHashLSH GABABGG 1.2.Power law10 Distributed union find 1.join 2.图连通分量算法示例实现样本数重复率耗时PrecisionRecallF1PAI5亿50%1h 34min879993其他实现5亿50%4h 10min859290PAI10亿50%3h 0min829990其他实现10亿50%6h 54min80908503 A general framework that helps dispatching the operators into new backends(AICompiler)and m

3、eanwhile provides new Tensor expression that swaps in eager mode.AIAn Compiler that uses the advanced optimization skills in order to support high performance codegen.Support FSDP,TP and other distribute strategies.TorchAcceleratorTorchAcceleratorTorchAccelerator基于Kube Scheduler FrameworkAIASW/DSW/P

4、SW合适的网络架构的调度选择可以更充分的释放高性能网络的潜力04LLMEAS OPT/GPT/Bloom/GLM *模型压缩权重量化激活量化KV Cache量化系统优化编译器优化高性能算子库分布式执行张量并行流水并行Nvidia GPUAMD GPU建模主流模型高性能实现开源模型全兼容OPT-66BGPU01234A100(80GB)V100(32GB)A10(24GB)fp16int8int4OPT-66Bperplexity036912wikitext2ptbc4fp16int8int4服务吞吐提升1.73.8倍首包延迟降低8.713.8倍LLMBladeLLMModel weights/configCompressionCompilingServingUserPlatform05高性能灵骏集群带来了非常有挑战的稳定性ECC ErrorNCCL TimeoutNCCL HangPCIE降速NVLink ErrorAIMasterEasyCKPT AIMaster HangCheckpointEasyCKPT 多级存储异步并行存储最快支持秒级存储，大幅减少计算上的浪费EasyCKPTServerless PAIPAI面向LLM全链路的一站式智算平台THANKS

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（PAI-Megatron-Patch：灵骏集群训练 LLMs.pdf）为本站（2200）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。