1、基于机器学习的自动化AI芯片编译技术李建军 地平线演讲嘉宾李建军地平线 编译器研发部负责人2012年博士毕业于中国科学院计算技术研究所,2012年至2016年在计算所任副研究员,主要研究方向为动静态程序分析、编译优化、软件安全等。2016年底加入地平线,负责AI芯片的编译器及Runtime相关的研发工作,并直接参与AI芯片的软硬件协同设计开发。在AI芯片编译优化,基于机器学习的编译优化技术等方面做了大量的研究和实践。在CGO,ICSE,ASE,TACO,TPDS等国际会议和期刊上发表论文10余篇,AI芯片、编译器相关授权专利30余项。目 录CONTENTS1.AI算法和应用的演进2.AI芯片架
2、构3.AI编译优化4.AI时代的软硬件协同设计AI算法和应用的演进PART 01-从ResNet 到 Transformer-从CPU+BPU到复杂异构-Software 1.0-2.0AI芯片上的神经网络算法ResNetAI芯片上的神经网络算法MobileNetAI芯片上的神经网络算法EfficientNetAI芯片上的神经网络算法TransformerAI芯片上的神经网络算法 AI 模型越来越复杂Convolution-Conv/Matmul/Reshape/Layernorm/Transpose/模型越来越大模型结构越来越复杂 细粒度异构计算能力的需求异构计算部件之间的高速数据共享通路灵
3、活的控制、调度并行Transformer模型不只是Tensor计算Vector:ElementwiseSoftmax,LayerNormReshape,Transpose计算访存比GPT大语言模型:一个让人崩溃的计算访存比GPGPU:将大量连续的计算(主要是vector)融合成一个大的kernelNPU:异构计算,利用SRAM等片内高速缓存Reshape/Transpose图优化很难完全消除AI芯片上的应用软件Software 1.0Software 2.0Software 1.0-2.0AI芯片上的应用软件From Tesla AI DayAI芯片上的应用软件 基于规则的代码-数据驱动的神经
4、网络规划控制模型前后处理模型串联 异构计算的需求高效执行整个应用流程模型LTO优化-Task Graph Compiler&RuntimeAI芯片架构PART 02Tensor-Tensor+Vector+Scalar地平线车载智能芯片架构Horizon Journey3(BPU Bernoulli)Instruction set with complete toolchain:Multi-Instruction Multi-data processor Compiler,Linker,Simulator Efficient performanceAchieving much higher F
5、PS than competitors on efficient networks:MobileNet v1/v2,EfficientNet lite Optimized DDR bandwidth High SRAM utilizationCo-optimization from hardware and software Saving 5080%DDR bandwidth relative to a competitor Performance profiler and debug systemBPU Bernoulli 2.0 Core地平线车载智能芯片架构Horizon Journey
6、5(BPU Bayes)High PerformanceAchieving higher FPS than a competitor(Orin-X)on object detectionAbout 1025x performance boost compare with BPU Bernoulli 2.0 on typical modelsNew design for MAC array and memory hierarchyReduce the requirement of DDR bandwidth and increase efficiencyImproved flexibility