1、王鹏鹏中国移动动研究院 项项目经经理1.DPU技术现状及挑战2.DPU硬件标准化思考3.DPU硬件标准化探索4.中国移动DPU标准及生态建设 DPU是继CPU、GPU之后的数据中心第三颗大芯片,本质是围绕数据处理提供网络、存储、安全、管理等数据中心基础设施虚拟化能力的专用处理器 DPU以数据为中心构建敏捷、灵活、高效的算力基础设施底座,实现极低损耗、极强性能、极高灵活、极致安全,支撑中国移动算力网络多样化业务需求DPUCPU、GPU、AI芯片管理运维系统虚拟机容器裸金属业务网络、存储网络算力节点算力服务形态算力服务管理编排业务场景智能计算大数据云游戏分布式存储极低损耗极低损耗CPU“零零”损耗
2、损耗算力资源极致利用算力资源极致利用极强性能极强性能线速转发、极低时延线速转发、极低时延无损网络无损网络极高灵活极高灵活裸金属弹性发放裸金属弹性发放网络可编程网络可编程极致安全极致安全防火墙等安全功能加速防火墙等安全功能加速虚拟化安全能力增强虚拟化安全能力增强各自为营、定向适配的商业模式限制了DPU的产业发展亟需完善技术体系,构建统一软硬件标准,加强产业合作,推动DPU产业生态稳步健康发展产业生态产业生态技术体系技术体系DPU与云平台、服务器三位一体共同构成端到端解决方案,任一环节的缺失均会影响产业落地 技术架构不独立:DPU本质是云化、虚拟化技术从纯软件实现向软硬结合发展的结果,技术架构与云
3、计算关系密切,耦合度高 技术路线不明晰:DPU在实现某一功能时,存在多种技术路线,无法收敛 技术标准不成熟:DPU功能与接口缺乏标准,硬件及服务器多为定制化实现,国内外相关标准组织刚刚起步DPU落地商用需要云平台、DPU、服务器三方定向适配,导致适配时间长、成本高云计算的需求决定DPU技术体系,云计算新技术、新场景迭代频繁,使得DPU的“易用性”成为落地关键服务器DPU云平台服务器整机面对的问题DPU卡部件可看作在服务器内部的另一个小型服务器。DPU卡的引入对通用服务器设备在多个方面提出了定制化要求DPU卡部件面对的问题引入DPU后,服务器内多网卡替换为一张DPU卡。终端客户的组网方案、单节点
4、网络带宽需求、带外纳管方案均存在较大差异,导致DPU卡关键硬件规格难以统一DPU卡裸金属服务器管理网络存储标准化计算安全芯片层部件层部件层整机层整机层软件平台层DPU作为典型的软硬一体解决方案,亟需优先引导整机层及部件层标准化、通用化,为芯片与软件的深度整合及生态繁荣提供底层支撑 服务器硬件标准化建议分两个阶段进行推进。于阶段一优先解决与硬件设计强相关的结构、供电、散热等需求,于阶段二迈入服务器与DPU卡紧密耦合的“深水区”,进一步收敛两者的在带外纳管、运维、底层固件的关系。通过生态标准进行前期引导,待生态成熟通过企标及采购进行落地 DPU卡硬件标准化建议通过生态标准优先对卡硬件架构、带外纳管
5、等达成方案级别一致,再通过企标进一步约束端口数量规格、功能性能等具体设计要求 结构 供电 散热 辅助边带信号 带外纳管 上下电及运维 BIOS、BMC 其他 硬件架构 形态 端口规格 功耗 温度范围 功能性能 服务器标准化阶段一服务器标准化阶段二DPU卡标准化阶段一阶段二硬件加速引擎网口Vender B:通用服务器网口协处理器 CPU带外管理供电Vender A:DPU卡CPUCPU电源带外管理散热模组PCIe槽位时序控制PCIe槽位统一服务器结构及供电最大能力统一服务器结构及供电最大能力统一硬件辅助边带信号定义统一硬件辅助边带信号定义统一散热能力统一散热能力统一带外管理功能边界统一带外管理功
6、能边界约束服务器可支持卡的最大结构规格及最大功耗门限约束服务器可支持卡在服务器未开机状态启动约束服务器支持未开机状态对卡进行散热及调速约束服务器能够提供给DPU的辅助边带信号逐步收敛DPU及服务器两者带外管理模块的职责及交互框架,最终做到边界清晰 在DPU裸金属服务器技术领域,中国移动于ODCC立项裸金属服务器技术规范,提出四个统一,旨在实现DPU与服务器设备之间的硬件解耦,及早引导产业进行针对性设计,突破新技术规模应用瓶颈 在服务器与DPU卡紧密耦合的技术领域,DPU卡设备身份的二重性使带外纳管成为首先要解决的问