《2024龙蜥大会生态案例分论坛:芯巢平台助力多样性算力发展-李锴.pdf》由会员分享,可在线阅读,更多相关《2024龙蜥大会生态案例分论坛:芯巢平台助力多样性算力发展-李锴.pdf(23页珍藏版)》请在三个皮匠报告上搜索。
1、提升多样性算力芯片能力,加速各行业数智化转型芯巢平台助力多样性算力发展中国移动研究院 技术经理李锴多样性算力的需求与挑战0101芯巢平台助力硬件评测效率提升0202支撑多样性算力软硬件优化能力0303多样性算力的需求与挑战算力网络业务愈发繁荣,决定算力呈现资源多样化、算网共生、智算融合的特征,“通用”+“异构”等资源支撑算力网络业务愈发繁荣,对底层算力提出多样性要求算力资源多样算网服务丰富算力资源网络分流AI服务区块链机器视觉云计算CPUDATA内存网卡硬盘通用资源异构资源GPUNPUDPUFPGA需求1:多样性算力需要加快向新型技术演进主要驱动力技术架构改进制造技术升级Chiplet:使用相
2、对成本可控的积木式模块化,设计计算平台SoC芯片异构多芯片:硬件乘法器,用来快速实现数字信号处理算法,在智算、多媒体、工控领域大量使用 新型封装技术:2.5D、3D封装技术驱动力:传统单功能芯片向多异构芯片集成方式演进,丰富的指令集满足更加多样化的场景要求 从计算向计算+连接方向发展,例如多die的UCIe连接,GPU卡间互联OISA连接等市场驱动力:计算密集型业务,如AI训练、推理、媒体、安全、区块链等高端制造技术:DUV光刻机多重曝光、新型FinFET、GAAFET使用推动向3nm以下发展需求2:多样性算力要实现极致的性能通用计算单元(CPU)并行计算单元(GPU/AI)数据处理单元(DP
3、U)网络/互联/池化数据、控制平面可编程数据卸载、灵活处理裸金属智能管理标准操作系统和工具故障域和安全隔离RoCE、IB等高速网络互联计算/内存/存储池400G/800G以太网缓存一致性极致虚拟化能力(NFV)众多核心覆盖(100+)处理器访存能力(1nm)网络转发能力(100%)通用计算能力(300+)大量训练样本,修正模型利用模型进行推理预测图像渲染性能编解码性能功耗、稳定性高低低+=极致吞吐时延功耗性能Arm等多样性ISA近年在数据中心发展迅速,但在底层性能数据收集工具仍存在优化空间,利用标准定义的PMU在直观反映软硬件协同优化方面有较大优化空间;开发多样性算力服务器性能采集工具对于解决
4、系统性能异常、获取业务研发阶段的性能数据、维护多芯片复杂应用场景至关重要,有助于推动多样性算力芯片的广泛应用;需求3:需要实现对不同ISA架构的性能提取能力挑战1:多样性算力对传统评测方法提出新挑战标准体系不成熟多样性算力覆盖范围仍需补充,包括跨架构CPU、GPU、内/外存系统等;硬件评测中软件适配缺乏统一的评测平台缺乏实际应用场景覆盖范围当前评测标准未充分考虑多样性算力的特点,导致评测结果无法全面反映算力的综合性能标准维度编译器会进行不同程度的优化。编译器的版本差异、不同设置会导致性能有显著差异;编译器优化差异操作系统的线程调度、内存管理、I/O操作等任务调度策略对性能有直接影响,会影响到应
5、用程序的执行效率;操作系统调度策略缺乏统一的产业标准来规定评测工具的设计和使用方式,到时评测结果可比性降低;平台标准化程度不足不同评测工具或方法具有不同的精度和一致性,即使在相同的硬件和软件环境下,也可能产生差异较大的评测结果;评测精度和一致性问题实际应用场景中,工作负载的类型和复杂性远超合成基准测试,缺乏对真实工作负载的评测会导致无法准确评估产品能力;实际工作负载的多样性业务需求会有所变化,系统需要扩展或调整配置;可扩展性和灵活性在传统大规模测试,参测厂商众多、测试用例多样,对专业技能要求极高、测试环节多,且周期较长,以及数据统计等都会造成测试成本高挑战2:传统大规模测试产生高额成本专业技能
6、要求高测试环节多、周期长数据统计等复杂进行有效的大规模测试需要具备特定专业技能的测试人员,如自动化测试工程师、性能测试专家等,这些专业人员的专业素质较高;单次开销:大规模测试需要较长的环境搭建、系统配置、环境执行等环节来完成,增加了人工成本;多轮测试迭代:为了确保软件或系统的稳定性和可靠性,每轮测试都可能需要重新配置环境和执行测试用例,进一步增加了人工成本;编写测试报告、数据统计、可视化展示需要后期大量工作,需要详细记录测试过程和结果,并保证测试过程的正确性;芯巢平台助力硬件评测效率提升为提升多样性算力与业务契合度,精准反馈产品性能,以“评估敏捷、目标指引、能力辅助”作为目标,中国移动打造“芯