1、Anolis OS基于国产硬件平台AI大模型部署实践中科曙光系统工程师纪笑旭大模型概述大模型应用模式大模型应用场景大模型带来的挑战0101国产硬件平台解决方案国产加速卡一览某国产硬件平台AI生态全场景解决方案0202应用实践案例大模型研发集群训练调优国产化替代0303大模型概述来自DataLearner:https:/ TextOutput TextDecoder+DecoderInput TextFeaturesEncoderInput TextOutput Text仅保留Decoder解码器仅保留Encoder编码器EncoderDecoder全部保留大模型应用模式模型开发Pretrain
2、预训练场景适配Finetune微调应用部署Inference推理大规模分布式训练网络和存储优化云上资源为主专用数据低参数调优专有资源为主离线/在线部署推理调优专有资源为主专用大模型领域大模型通用大模型大型通用数据集小型专业数据集数据集参数量算力需求垂直方向通用方向AI大模型部分应用场景Suno文生音乐大模型智能搜索大模型CPM-Bee智能问答证券助理大模型SD文生图大模型DriveGPT标注大模型Sora文生视频大模型门诊病历生成大模型大模型带来的挑战01 算力02 高效训练03 稳定性04 生态支持 在保证充足算力的基础上,大模型训练收敛周期长,为了缩短训练周期,快速迭代,减少开发成本,必须
3、要提升算力利用率。影响算力利用率的因素,包括通信,存储,并行实现,模型优化,算子优化等 随着大模型向更加通用发展,模型参数量越来越大 研究表明模型和训练数据的大小是决定模型能力的关键因素 数据量越大,参数数量越大,算力需求越高 在大规模训练中,集群庞大,准确性要求高,冗余成本高昂,对稳定性的要求高 大规模训练中要求相应的计算卡、存储硬件、通信组件、软件框架以及操作系统等具有极高的稳定性 大模型在不断变得更专或更通用时,对服务能力和应用生态要求在不断变高。大规模训练中,需要高效便捷的数据处理,调试调优,应用生态和服务支撑能力国产硬件平台解决方案国产加速卡厂家一览国外GPGPU国产GPGPU国产N
4、PU某国产硬件平台AI生态安防领域智能交通智慧零售智慧医疗智慧工业智慧国土精准营销金融风控样例程序:提供多个领域的训练及推理例程;图像分类目标检测图像分割自然语言处理推荐算法语音算法容器编排:提供异构加速卡K8S plugin及多个镜像;深度学习框架:兼容多个国内外深度学习框架;MIGraphX组件库:兼容多个国内外第三方组件库;DeepSpeedApexMMCVFastMoeTorchVisionHorovodDetectron2CenterNet基础数学库:针对异构加速卡深度优化的基础数学库;BLASDNNFFTRANDSPARSE基础通信库:分布式通信;RCCL UCX三方库:常用数学库
5、;Eigen MagamaTHRUST SOLVER CUB PRIM TRACER操作系统:AnolisOS/CentOSUbuntu麒麟统信方德等容器/虚拟化:支持虚拟直通及Docker容器化运行时系统:异构加速卡程序运行的高效运行时系统,兼容CUDA、HIP生态;编译系统:提供基于异构加速卡高级语言(类CUDA)的编译及优化;Source?Code?(.cpp)Device?Source?CodeKernel?ISA?ObjectHost?.cppKernel?ISA?BinaryHost?.odevice compilerFat BinaryDCU CodeCPU Codedevice
6、 linkerHost?a.outhost compilerhost linkerDCU ObjectCPU ObjectFat Relocatable监控分析系统:提供异构加速卡的监控及分析,协助瓶颈定位及优化分析;异常分析及调试系统:支持异构加速卡程序的日志分析及调试;国产芯片:X86/ARM等国产加速卡:异构加速卡国产整机厂商:浪潮/H3C等曙光高端计算与人工智能全场景覆盖解决方案高端计算系统高速网络计算/存储网络国产异构加速卡节点国产异构加速卡节点国产异构加速卡集群作业需求统计、提交根据不同的大模型加载并分发所需的容器镜像及数据集根据作业卡的需求