王博-从CPU到NPU从对象到张量的编程范式转型.pdf

上传人：哆哆

编号：631182

2025-04-19

PDF 42页 22.72MB

《王博-从CPU到NPU从对象到张量的编程范式转型.pdf》由会员分享，可在线阅读，更多相关《王博-从CPU到NPU从对象到张量的编程范式转型.pdf（42页珍藏版）》请在三个皮匠报告上搜索。

1、ML-SummitML-SummitML-SummitML-SummitML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit软件设计与实现范式从对象到张量王博ML-SummitML-Summit从 Object 到 Tensor 的架构与实现模式软件设计与实现范式的变化基于 GPU/NPU 的软件技术栈计算架构的演进ML-SummitML-Summit01计算架构的演进ML-SummitML-SummitGPU 算力与能效比变化Single-threaded CPU vs.GPU performancehttps:/ in AI

2、inference energy consumption:Beyond the performance-vs-parameter laws of deep learninghttps:/ in Everywherehttps:/ AI RAN 为例https:/ Software 1.0 到 2.0https:/ EventFactoryValueObjectDomain Driven DesignML-SummitML-SummitSoftware 3.0？https:/ 3.0+Connor White https:/ 1.0Software 2.0Software 3.0Software

3、 4.0自长软件意图驱动软件数据驱动软件确定性软件ML-SummitML-SummitSystem Software EngineeringApplicationML-SummitML-Summit03基于 GPU/NPU 的软件技术栈ML-SummitML-SummitCUDA Platform StackIn the beginningCUDA:New Features and Beyondhttps:/ System View面向产品(竞争力)面向应用（复用）算子开发工程面向硬件(性能)面向研发(效率)模型开发、训练与应用模型推理与加速异构计算 SDK运行时 ptxTensorFlowN

4、vidia DynamoCUDA RuntimenvccNsight ToolsCUTLASScuBLAScuDNNPyTorchTVMXLAJARMegatronDeepSpeedOpenAI TritonNvidia Triton ServerTensorLLMTensorRTFastTransformerNCCLNVSHMEMDriversRDMAnvrtcML-SummitML-SummitFrom AI Framework to Operatorshttps:/ ProgramminghostdeviceML-SummitML-SummitSIMT：Auto SIMDML-Summi

5、tML-SummitSIMT：Easy for Beginner？SimpleMassiveAutomaticML-SummitML-SummitBut Copy,Sync,Schedule,Tile,CacheReduceMatmulML-SummitML-SummitThe complexity of operator developmentTensor Info（DataType、Shape、Format）Operator Type（Elemwise、Reduce、Matmul）Hardware Variants（Volta、Ampere、Blackwell）https:/ Stackh

6、ttps:/ Structure昇腾AI处理器:https:/ Stackhttps:/ in NPUhttps:/ Chttps:/ 融合优化ML-SummitML-SummitAutomatic Optimization by Compilerhttps:/tvm.apache.org/ML-SummitML-SummitPyTorch 2.0 with Tritonhttps:/pytorch.org/get-started/pytorch-2.0/https:/pytorch.org/get-started/pytorch-2.0/ML-Summ

王博-从CPU到NPU从对象到张量的编程范式转型.pdf

相关报告