1、DPU裸金属服务器技术规范和生态建设演讲人:王 鹏演讲单位:中国移动研究院目录01机遇与挑战裸金属服务器技术规范解读总结和展望020304中国移动DPU标准和生态建设趋势与机遇产业数字化转型要求极致的数据处理效率以DPU为代表的软硬件深度融合的新型计算架构逐渐兴起DPUAI芯片GPUCPUHDDiSCSI、NVMeSDNRDMASSDDPUCPUAI芯片GPUHDDiSCSI、NVMeSSD数据多样性催生以数据为中心的新型计算架构DPU是算力网络算力基础设施坚实底座中国移动所提出的算力网络业务对于底层基础算力和数据中心网络的要求更加高端和多样化DPU可实现低损耗、高性能、高灵活、强安全,支撑算
2、力网络多样化业务需求DPUCPU、GPU、AI芯片管理运维系统虚拟机容器裸金属业务网络、存储网络算力节点算力服务形态算力服务管理编排业务场景智能计算大数据云游戏分布式存储技术体系不完善、产业生态不健全是DPU行业面临的核心挑战各自为营、定向适配的商业模式限制了DPU的产业发展,亟需完善技术体系,构建统一软硬件标准,加强产业合作,推动DPU产业生态稳步健康发展产业生态技术体系DPU与云平台、服务器三位一体共同构成端到端解决方案,任一环节的缺失均会影响产业落地技术架构不独立:DPU本质是云化、虚拟化技术从纯软件实现向软硬结合发展的结果,技术架构与云计算关系密切,耦合度高技术路线不明晰:DPU在实现
3、某一功能时,存在多种技术路线,无法收敛技术标准不成熟:DPU功能与接口缺乏标准,硬件及服务器多为定制化实现,国内外相关标准组织刚刚起步DPU落地商用需要云平台、DPU、服务器三方定向适配,导致适配时间长、成本高云计算的需求决定DPU技术体系,云计算新技术、新场景迭代频繁,使得DPU的“易用性”成为落地关键服务器DPU云平台目录01机遇与挑战裸金属服务器技术规范解读总结和展望020304中国移动DPU标准和生态建设为什么做硬件规范技术现状:裸金属智能网卡内除网络芯片外还会包含轻量级CPU芯片(或集成在其他芯片内的处理器内核)及带外管理模块,该部件可看作在服务器内部的另一个小型服务器。裸金属智能网
4、卡的引入对传统服务器设备提出了定制化要求行业已有的解决方案:大云采用 JDM 模式,服务器+DPU硬件全定制实现做规范的驱动力:集采模式存在服务器整机与裸金属卡硬件解耦的需求,多样化的DPU卡厂商与服务器厂商也存在彼此适配的需求。新技术的规模推广需要足够聚焦足够灵活的硬件规范进行设计拉齐硬件加速引擎网口网口协处理器CPUCPUCPUPCIeSlot硬件加速引擎网口网口协处理器CPUCPUCPUPCIeSlotPCIeSlotVender A:裸金属智能网卡Vender B:通用服务器PCIeSlotDPU主从服务器整机定制化服务器设备定制卡规范做什么硬件加速引擎网口Vender B:通用服务器
5、网口协处理器CPU带外管理供电Vender A:裸金属智能网卡CPUCPU电源带外管理散热模组PCIe槽位时序控制PCIe槽位 目标:用于指导基于DPU的裸金属服务器设计,约束整机硬件所能为卡提供的最大能力,让服务器与卡具备适配前提 范围:适用于数据中心通用服务器产品,使用对象为服务器厂商(不涉及裸金属卡的硬件标准化)内容:面对未来2-3年技术趋势,遵循最小影响原则做通用增强,设置 Optional 等级约束,聚焦“四个统一”,形成可量化的硬件规范统一服务器结构及供电最大能力统一硬件辅助边带信号定义统一散热能力统一带外管理功能边界约束服务器可支持卡的最大结构规格及最大功耗门限约束服务器可支持卡
6、在服务器未开机状态启动约束服务器支持未开机状态对卡进行散热及调速约束服务器能够提供给DPU的辅助边带信号逐步收敛DPU及服务器两者带外管理模块的职责及交互框架,最终做到边界清晰结构及槽位信号解读 关键点1:槽位最大支持全高、双宽、3/4长规格的标准PCIe设备 关键点2:(optional)建议裸金属卡所在槽位的100MHz时钟在主板S5状态使能 关键点3:(optional)裸金属卡为解决卡自身散热需求会倾向采用较重材质的散热片设计,建议整机结构预留支持卡的卡尾设计,设计兼容半长、3/4长卡供电及散热解读 关键点1:为满足裸金属场景云平台管理需求,整机需要支持裸金属卡在整机 S5 状态启动,