1、面向AI的操作系统开发部署优化及应用实践窦志冲浪潮信息操作系统研发工程师第二部分 集群部署+大模型应用实践第一部分 AI大模型开发和应用挑战企业AI大模型开发环境如何部署以及大模型如何应用?模型行业领域知识欠缺企业私有知识无法利用不了解企业文化和价值观千卡集群部署,基础大+模型应用OS下硬件选型困难、不兼容软件选型困难、性能不达标集群资源管理复杂传统方式部署GPU集群操作系统安装GPU驱动&IB驱动安装CUDA&FabricDocker&NVIDIA Container访问控制Toolkit安装深度学习框架资源调度性能优化管理软件和监控工具数千颗GPU芯片智算集群部署千卡性能优化GPU失效、网
2、卡失效管理分布式任务的环境配置复杂、易错 CUDA初始化失败、GPU掉卡 NCCL通信性能低 GPU direct RDMA 未使能 RoCE网络用不起来、不稳定 集群性能上不去集群部署要点集群部署挑战问答效果差 答案缺乏专业性基础模型难微调,知识驱动难实现种类繁多 内容复杂 知识提取门槛高专业度低信息虚假逻辑不清基础模型缺专业知识场景应用幻觉频发报表文档代码多模多元 适配难 成本高模型1模型3模型N模型2模型数量众多 算力类别多样CPU、GPU、ASIC、xPU企业大模型应用的挑战部署困难、依赖问题难以解决操作系统GPU驱动、IB卡驱动Python软件栈依赖AIminicondaCUDA第二
3、部分 集群部署+大模型应用最佳实践第一部分 AI大模型开发和应用挑战H800/H100/A800/A100/L40s/H20/燧原/沐曦/天数/寒武纪InfiniBand HCA 200G/400GRoCE HCA NIC 200G/400G高性能AI服务器高吞吐并行存储系统低延迟RDMA网络驱动最佳选型部件最佳选型基于KeyarchOS的AI集群部署最佳实践CUDACudnnDockerDCGM文件系统NFSv4OverRDMA用户管理NISOpenLDAP自动化运维工具PDSHPassSSHPuppetAnsible并行文件系统BeeGFSLustre性能调优系统调优硬件调优内核调优安全调
4、优BenchmarkNvbandwithHPLNCCLStreamPeakTOPSAI软件栈最佳实践并行环境自动配置AI软件栈基于KeyarchOS的AI集群部署最佳实践管理节点未安装系统的服务器(裸机)管理节点和计算节点同一个网段计算节点PXE快速部署infiniband网络传输RoCE网络传输驱动自动编译安装驱动依赖自动安装软件栈自动安装并行环境自动配置Benchmark自动运行AI定制版PXE下发KOS AI定制版镜像开始部署AI大模型训练集群20分钟200节点基于KeyarchOS的AI集群部署最佳实践基于KeyarchOS的企业大模型开箱即用docker及依赖rpm包minicond
5、a定制rpm包GPU驱动定制rpm包源2.0大模型定制rpm包其他中间件定制rpm包YuanChat应用定制rpm包源2.0CUDAYuan ChatminicondaGPU Driverdocker定制组件(base)rootlocalhost yyf_compose#genisoimage-untranslated-filenames-volid KeyarchOS-5-8-SP1-x86_64-J-joliet-long-rational-rock-translation-table-input-charset utf-8-b isolinux/isolinux.bin-c isolin
6、ux/boot.cat-no-emul-boot-boot-load-size 4-boot-info-table-eltorito-alt-boot-e images/efiboot.img-no-emul-boot-o./KeyarchOS_yuanchat-x86-64-dvd.iso./rpm包置入Packages目录yaml文件中添加rpm包打包镜像镜像安装重启即可使用基于KeyarchOS的企业大模型开箱即用基于KeyarchOS的企业多模型管理平台行业数据数据私