《王博-从CPU到NPU从对象到张量的编程范式转型.pdf》由会员分享,可在线阅读,更多相关《王博-从CPU到NPU从对象到张量的编程范式转型.pdf(42页珍藏版)》请在三个皮匠报告上搜索。
1、ML-SummitML-SummitML-SummitML-SummitML-SummitML-SummitML-SummitML-SummitML-SummitML-Summit软件设计与实现范式 从 对象 到 张量王博ML-SummitML-Summit从 Object 到 Tensor 的架构与实现模式软件设计与实现范式的变化基于 GPU/NPU 的软件技术栈计算架构的演进ML-SummitML-Summit01计算架构的演进ML-SummitML-SummitGPU 算力与能效比变化Single-threaded CPU vs.GPU performancehttps:/ in AI
2、inference energy consumption:Beyond the performance-vs-parameter laws of deep learninghttps:/ in Everywherehttps:/ AI RAN 为例https:/ Software 1.0 到 2.0https:/ EventFactoryValueObjectDomain Driven DesignML-SummitML-SummitSoftware 3.0?https:/ 3.0+Connor White https:/ 1.0Software 2.0Software 3.0Software
3、 4.0自长软件意图驱动软件数据驱动软件确定性软件ML-SummitML-SummitSystem Software EngineeringApplicationML-SummitML-Summit03基于 GPU/NPU 的软件技术栈ML-SummitML-SummitCUDA Platform StackIn the beginningCUDA:New Features and Beyondhttps:/ System View面向产品(竞争力)面向应用(复用)算子开发工程面向硬件(性能)面向研发(效率)模型开发、训练与应用模型推理与加速异构计算 SDK运行时 ptxTensorFlowN
4、vidia DynamoCUDA RuntimenvccNsight ToolsCUTLASScuBLAScuDNNPyTorchTVMXLAJARMegatronDeepSpeedOpenAI TritonNvidia Triton ServerTensorLLMTensorRTFastTransformerNCCLNVSHMEMDriversRDMAnvrtcML-SummitML-SummitFrom AI Framework to Operatorshttps:/ ProgramminghostdeviceML-SummitML-SummitSIMT:Auto SIMDML-Summi
5、tML-SummitSIMT:Easy for Beginner?SimpleMassiveAutomaticML-SummitML-SummitBut Copy,Sync,Schedule,Tile,CacheReduceMatmulML-SummitML-SummitThe complexity of operator developmentTensor Info(DataType、Shape、Format)Operator Type(Elemwise、Reduce、Matmul)Hardware Variants(Volta、Ampere、Blackwell)https:/ Stackh
6、ttps:/ Structure昇腾AI处理器:https:/ Stackhttps:/ in NPUhttps:/ Chttps:/ 融合优化ML-SummitML-SummitAutomatic Optimization by Compilerhttps:/tvm.apache.org/ML-SummitML-SummitPyTorch 2.0 with Tritonhttps:/pytorch.org/get-started/pytorch-2.0/https:/pytorch.org/get-started/pytorch-2.0/ML-Summ