报告预览

2024龙蜥大会Workshop：面向AI的操作系统开发部署优化及应用实践-窦志冲.pdf

编号：175490

PDF 15页 3.09MB 下载积分：VIP专享

下载报告请您先登录！

2024龙蜥大会Workshop：面向AI的操作系统开发部署优化及应用实践-窦志冲.pdf

1、面向AI的操作系统开发部署优化及应用实践窦志冲浪潮信息操作系统研发工程师第二部分集群部署+大模型应用实践第一部分 AI大模型开发和应用挑战企业AI大模型开发环境如何部署以及大模型如何应用？模型行业领域知识欠缺企业私有知识无法利用不了解企业文化和价值观千卡集群部署，基础大+模型应用OS下硬件选型困难、不兼容软件选型困难、性能不达标集群资源管理复杂传统方式部署GPU集群操作系统安装GPU驱动&IB驱动安装CUDA&FabricDocker&NVIDIA Container访问控制Toolkit安装深度学习框架资源调度性能优化管理软件和监控工具数千颗GPU芯片智算集群部署千卡性能优化GPU失效、网

2、卡失效管理分布式任务的环境配置复杂、易错 CUDA初始化失败、GPU掉卡 NCCL通信性能低 GPU direct RDMA 未使能 RoCE网络用不起来、不稳定集群性能上不去集群部署要点集群部署挑战问答效果差答案缺乏专业性基础模型难微调，知识驱动难实现种类繁多内容复杂知识提取门槛高专业度低信息虚假逻辑不清基础模型缺专业知识场景应用幻觉频发报表文档代码多模多元适配难成本高模型1模型3模型N模型2模型数量众多算力类别多样CPU、GPU、ASIC、xPU企业大模型应用的挑战部署困难、依赖问题难以解决操作系统GPU驱动、IB卡驱动Python软件栈依赖AIminicondaCUDA第二

3、部分集群部署+大模型应用最佳实践第一部分 AI大模型开发和应用挑战H800/H100/A800/A100/L40s/H20/燧原/沐曦/天数/寒武纪InfiniBand HCA 200G/400GRoCE HCA NIC 200G/400G高性能AI服务器高吞吐并行存储系统低延迟RDMA网络驱动最佳选型部件最佳选型基于KeyarchOS的AI集群部署最佳实践CUDACudnnDockerDCGM文件系统NFSv4OverRDMA用户管理NISOpenLDAP自动化运维工具PDSHPassSSHPuppetAnsible并行文件系统BeeGFSLustre性能调优系统调优硬件调优内核调优安全调

4、优BenchmarkNvbandwithHPLNCCLStreamPeakTOPSAI软件栈最佳实践并行环境自动配置AI软件栈基于KeyarchOS的AI集群部署最佳实践管理节点未安装系统的服务器（裸机）管理节点和计算节点同一个网段计算节点PXE快速部署infiniband网络传输RoCE网络传输驱动自动编译安装驱动依赖自动安装软件栈自动安装并行环境自动配置Benchmark自动运行AI定制版PXE下发KOS AI定制版镜像开始部署AI大模型训练集群20分钟200节点基于KeyarchOS的AI集群部署最佳实践基于KeyarchOS的企业大模型开箱即用docker及依赖rpm包minicond

5、a定制rpm包GPU驱动定制rpm包源2.0大模型定制rpm包其他中间件定制rpm包YuanChat应用定制rpm包源2.0CUDAYuan ChatminicondaGPU Driverdocker定制组件(base)rootlocalhost yyf_compose#genisoimage-untranslated-filenames-volid KeyarchOS-5-8-SP1-x86_64-J-joliet-long-rational-rock-translation-table-input-charset utf-8-b isolinux/isolinux.bin-c isolin

6、ux/boot.cat-no-emul-boot-boot-load-size 4-boot-info-table-eltorito-alt-boot-e images/efiboot.img-no-emul-boot-o./KeyarchOS_yuanchat-x86-64-dvd.iso./rpm包置入Packages目录yaml文件中添加rpm包打包镜像镜像安装重启即可使用基于KeyarchOS的企业大模型开箱即用基于KeyarchOS的企业多模型管理平台行业数据数据私

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（2024龙蜥大会Workshop：面向AI的操作系统开发部署优化及应用实践-窦志冲.pdf）为本站（张5G）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。