Kimi 稳定高效的 LLM 基础设施构建之道.pdf

编号:627093 PDF 23页 4.42MB 下载积分:VIP专享
下载报告请您先登录!

Kimi 稳定高效的 LLM 基础设施构建之道.pdf

1、Kimi 稳定效的 LLM 基础设施构建之道维啸之暗系统程师01020304规模训推集群的挑战全链路稳定性提升效资源利强化学习中的混合部署录01规模训推集群的挑战量的资源造成故障频次变,如何快速监测并恢复实验变得尤其重要机器频繁故障户的开发机、件存储存在量的浪费情况,根据量动清理的策略未必是最优的。需要建效的资源使范式资源使不够效线上推理呈现常明显的潮汐效应,资源需要能动态的根据时间进分配,避免资源浪费推理潮汐效应强化学习中存在训推两种 workload,需要平衡者的资源占防资源分配不均衡RL 资源分配不均规模训推集群的挑战02The more you stabilize,the more y

2、ou save全链路稳定性提升区分好机器、坏机器 根据任务查询机器异常事件PreCheck、周期巡检CPU 侧监控 py 和 torch C 调栈 GPU 侧插 cuda event 监控调栈全链路监控在离线志分析 Tensorboard 异常指标检测智能志分析时刻不在 async 存 ckpt ckpt 效管理和备份连续异步 checkpointP任务全命周期监控LMCVarysPreCheck、周期巡检PreCheck 测试标准集合通讯性能情况 测试 GPU d2h 等性能指标 使训练中创建的 group 做 group 通讯检测,避免调度到故障机器上周期巡检、故障维护、检恢复 对机器 G

3、PU 故障、线故障、pcie 降速等等故障问题进周期巡检 故障机器即维护,等待排空,尝试重启愈,如故障未修复,动化通知供应商介 故障机器修复后动进检流程,动加集群调栈全链路监控CPU 调栈监控 周期记录 py 调栈 任务奔溃之后记录 torch 调栈 提供聚类信息供户查看是否有异常代码或机器GPU 调栈监控 分级插 CUDA event 导出 event 信息整合成时序图智能志分析离线志聚合查询 从任务的各种志中查询,匹配些特殊的模式,寻找报错的实际志 和机器故障联动,展示导致个任务故障的所有诱因在线志监控 从 tensorboard、机器巡检等在线监控指标中寻找当前任务是否有异常连续异步 c

4、heckpoint不间断异步 checkpoint 实现损 async checkpoint saver 针对重要任务不间断开启异步 checkpoint 存储 任务重启能即基于最新的 checkpoint 启动,并保证状态完全致,避免算浪费Checkpoint 备份同步系统 针对短时间内新增量 checkpoint 的场景提供快速删除旧 checkpoint 和抽样备份 checkpoint 到对象存储的功能 跨集群同步 checkpoint,快速从另个集群拉取训练任务 可直接从对象数据中拉取 checkpoint 做规模实验03Efficiency is all you need效资源利全

5、位 LLM 开发效率提升动态申请云上开发资源 在 ECS 基础上通过容器化实现持任意 docker 镜像的开发机 使 remote 的式交互式启动 GPU 资源于 Debug,并基于 GPU 量做动浪费率监控 基于云 k8s 节点池动扩缩容功能,动态申请交互式 worker 便于做临时调试和资源使任意级录量统计 fscounter 实现任意级录量监控 缓存每次扫描的量信息,避免每次都做全局扫描模型异步 eval Watch 训练 checkpoint,对每个 checkpoint 异步做 eval跨区域多实验灵活对 统托管 tensorboard 优化读取速率,持任意实验之间的 tensorb

6、oard 对 持实验 merge,merge 之后的实验互相对ECS 开发机CPU workerGPU worker弹性动 清理跨机房推理模型分发1重保服务,必须保证稳定运线上 Kimi 推理服务2优先级训练任务不可抢占训练任务3低优任务,使潮汐资源Spot 训练任务4插空调度,随时被抢占低优先级离线推理训推多级潮汐系统训推多级潮汐系统04RL Hybrid Deployment强化学习中的混合部署强化学习 Infra 的挑战训推是两种不同的模式 训练和推理框架跑的是两套代码

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(Kimi 稳定高效的 LLM 基础设施构建之道.pdf)为本站 (山海) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠