《中国移动研究院:通过总线技术实现数据中心级“先进封装”(2023)(14页).pdf》由会员分享,可在线阅读,更多相关《中国移动研究院:通过总线技术实现数据中心级“先进封装”(2023)(14页).pdf(14页珍藏版)》请在三个皮匠报告上搜索。
1、演讲人:李锴演讲单位:中国移动研究院图片来源:AMD 在Chiplet条件下,Intel、AMD、Arm、Hygon等处理器的核心数量不断增加,通用服务器算存比没有大幅波动情况下,对服务器内存容量需求大幅提升;Intel Sapphire Rapids 提供多达60个内核,120线程,8个内存通道AMD Genoa 提供多达128个内核,256线程,12个内存通道图片来源:Intel不断增加的核心数量进一步提升了算力能力,与此匹配的服务器内存需求也同步匹配新一代人工智能依赖数据、算法和算力,然而,当前AI硬件的算力增长远远超过内存发展速度,导致原有内存的分层架构效果无法完全满足现在业务需求;在
2、边缘场景下,海量、高维模型、稀疏特征数据需要强大的内存支持系统来实现更好的在线推理能力;在大模型的训练和推理场景,GPU/AI卡的显存或内存容量不足,呈现出明显的内存墙问题。这些数据的高维、稀疏特征又为计算和存储带来了很大的挑战,隐藏层大小可能就是数百万的量级,总参数量甚至能达到十万亿的量级,对显存/内存需求大训练、推理场景在应用需求对大内存迫切性增加需要通过芯片层级的架构改进来缓解内存墙瓶颈,例如将内存堆叠在逻辑芯片上,使内存更靠近处理器,从而更近、更快且更容易访问数据,无论在是通用计算还是智算都殊途同归;来源:AMD来源:NVIDIA来源:TSMC处理器内存加速器传统计算架构处理器内存加速
3、器芯片级共封装内存内存芯片内部正在使内存更接近逻辑和加速器,内存将不是通过 PCB 连接的,而是放在封装之中,CPU和加速器的速度更快、性能更高同封装同封装面向大模型的训练、推理场景,单机8卡已经不能单纯作为单台服务器的边界,需要构建更大型的超级计算机提高计算效率和能力,通过实现计算架构的改进,以确保其满足算、存要求,使数百级别处理器进行总线级互联;做为另外一种“先进的封装技术”,其规模已扩大至数据中心,总线连接可被视为中介层;传统数据中心S架构数据中心处理器内存a-b加速器处理器内存b-c加速器处理器内存c-d加速器处理器内存d-e加速器交换机、路由器处理器内存a-e加速器处理器内存a-e加
4、速器处理器内存a-e加速器处理器内存a-e加速器总线总线总线总线总线互联Server1Server2Server3Server4Super Server(S)实现总线互联的数据中心“先进封装”PCIe连接CXL连接当前业界有多种通过总线技术实现拓展带宽的技术,并将CPU、GPU、存储介质等异构部件实现全连接,增加缓存一致性、纳秒级时延、百处理器级别的技术能力,力争通过总线技术将大规模的存、算融为一体;PCIe/CXL、Nvlink、CCIX、AMBA等技术正在加速演进;总线协议CXL/PCIe 5.0NVLINK 4.0速率PCIe 5.0 32GT;PCIe 6.0 64GT;100Gbps
5、;开放性开放封闭中国移动正在密切探索包括CXL在内的多种总线技术,目的统一异构部件的算力和存储资源,实现大带宽芯片连接;当总线可以实现多种应用场景,从现实需求的优先级来说,建议在构建统一内存池和GPU/AI芯片层级的总线互联进行同步推进;内存池可以实现处理器和内存设备之间的缓存一致性访问,扩大内存容量和带宽;0 01 12 23 34 45 5.N N一组有一组有N N张张GPUGPU/AI/AI卡卡0 01 12 23 34 45 5.N N一组有一组有N N张张GPUGPU/AI/AI卡卡计算总线总线总线 SwitchSwitch总线总线 SwitchSwitch总线总线SwitchSwi
6、tch总线总线 Switch Switch总线总线 Switch Switch总线总线 Switch Switch总线总线 Switch Switch更低延迟的内部通信更高效的数据读写更灵活的拓扑连接推进GPU/AI芯片层级的总线互联通过探索包括CXL在内的总线级内存池;新型总线的卡间互联模式,形成技术突破和应用推进总线互联的内存池0 01 12 23 34 45 5.N N多多ServerServer共享存储共享存储资源资源0 01 12 23 34 45 5.N N多多ServerServer共享存储资源共享存储资源总线总线 Switch Switch总线总线 Switch Switch总