《01-张健.pdf》由会员分享,可在线阅读,更多相关《01-张健.pdf(34页珍藏版)》请在三个皮匠报告上搜索。
1、开源高性能SOC IP技术路线图2024年7月27日1目录 开芯院IP生态 服务器SOC IP技术路线图 开芯院对软件生态的支持3ARM服务器IP生态相关上游规范/认证SBSA(Server BaseSystem Architecture)SBBR(Server BaseBoot Requirements)ARM Server Ready6相关上游规范RISC-V server platformspecification RVA profileRISC-V server SOCspecificationBoot and RuntimeServices specificationRISC-V p
2、latformsecurity modelCertification(Certification Steering Commitee)开芯院IP生态7服务器场景,分四部分交付CPU subsystem DebugModule Global Timer NOC交付方式:满足NOC拓扑的交付方式 NOC指WYH(温榆河)。竞合伙伴的商业IP不在交付范围之内,例如ARM CMN-600,CMN-700;可以提供技术支持 DSU处于研发状态,2024Q3暂时无法提供。可以提供CHI,TL,AXI等接口的异步桥已有交付方式:CPU subsys交付Q1:交付形态有无其它要求?暂不支持cluster。20
3、24年H2 多核验证支持4-8核8服务器SOC IP技术路线图 Bus protocol Memory 非标量运算 虚拟化 调测(debug and profiling)RAS 安全(security and crypo)电源管理/低功耗 可扩展性9上半年已经完成的工作模拟器1.RVV 负载分析、向量架构改进,RVV 版的 hmmer 初步获得性能提升2.多核 checkpoint 生成工具3.香山 GEM5 模拟器的 CHI 整合,可运行多核 checkpoint 和多核 difftest4.帕拉丁运行单核 checkpoint 和 difftest,仿真速度达到 500+KHz 5.RTL
4、 新后端 Chisel 编译速度优化,从 35 min 降低到 3 min6.路预测调优,dcache 路预测准确率从 60+%提高到 80+%Frontend1.ICache实现规格拆分,缩减面积2.FTQ重定向中ALU部分实现提前一拍读,提高性能;FTQ去除折叠历史等冗余存储,缩减面积3.补充部分clock gating,并优化clock gating efficiency,优化功耗表现4.实现动态关闭FTB,节省功耗5.修复ICache的X态传输bug;修复fencei的功能bug;修复BPU初始化bug Backend1.支持H扩展;实现V扩展运算和调度部分,SPEC06INT自动向量
5、化性能接近标量2.实现发射后读寄存器堆、ROB压缩等高性能CPU必备特性,降低面积3.实现RV23A中约50%必选扩展,提升对软件生态的适配性4.修复CSR里大量不符合规范的bug,提升稳定性和安全性5.乱序调度算法改进,提升指令分派和发射效率Memblock1.完成 L2 BOP 的虚地址预取,SPECfp 性能提升 4.28%2.完成乱序向量访存调度改造,实现 Unit-stride 元素合并,向量化 hmmer 分数相比于标量 hmmer预计提升约 14.3%3.完成 DCache Evict on Refill 的性能优化,SPECfp 性能提升约 1%4.优化 MemBlock 门控
6、,静态门控覆盖率由 75%提升至 95%以上L2Cache1.完成原生CHI接口改造2.替换算法更新为 DRRIP3.添加关键字优先设计(L2 优先向 L1 发送【触发 load miss 地址】所在的数据 beat)4.采用更加准确的提前唤醒信号计算算法(L2 在返回数据的前 3 拍向 L1 发送 Hint 信号)5.添加了基于虚地址的 BOP 预取器;Temporal 预取所需的 meta 迁移至 L2 Data SRAM 存储,且 meta 和 data 进行统一管理动态分配102024Q3-2025Q2整体计划11IP support for bus protocol13Memory1