《胡晓光-飞桨框架技术创新之路.pdf》由会员分享,可在线阅读,更多相关《胡晓光-飞桨框架技术创新之路.pdf(45页珍藏版)》请在三个皮匠报告上搜索。
1、飞桨框架技术创新之路百度杰出架构师/胡晓光目录动静统一自动并行飞桨框架关键技术飞桨框架总体设计飞桨框架总体设计人工智能技术栈模型层模型层框架层框架层芯片层芯片层应用层应用层New Bing百度新搜索MidjourneyChatGPTGeminiTPU深度学习框架核心功能易用的开发接口 数据抽象:Tensor 操作抽象:Operator Python,Numpy 避免了解硬件底层开发接口,如Cuda C,cuDNN,cuBlas等自动微分功能 只需要写神经网络的前向,通过链式法则自动计算Loss关于参数的梯度 高阶自动微分 前向自动微分多硬件 隔离硬件差异,如Cuda C,oneAPI,XTDK
2、,BangC等等 充分发挥硬件性能分布式,合理排布计算、访存、通信等操作可扩展,如硬件后端、算子、Pass、Dialect等模型和框架代码规模对比 让深度学习技术的创新与应用更简单模型模型代码规模代码规模Llama3(推理)2千行StableDiffusion1.8万行AlphaFold2.4万行框架框架代码规模代码规模Tensorflow(去三方库)420万行PyTorch298万行PaddlePaddle307万行https:/ v2.0 Caffe开源PyTorch v0.1发布PyTorch v1.3LayerOperator符号微分动态图模式+Graph模式+Eager模式图像、语音
3、应用图像、语音应用自然语言处理自然语言处理TransformerTransformer预训练模型预训练模型科学计算、生物计算等科学计算、生物计算等学术创新学术创新科技企业参与科技企业参与大规模产业应用大规模产业应用静态图模式2012Deep Belief NetsDeep Belief Nets更小的复用粒度更小的复用粒度融合两种开发模式融合两种开发模式灵活和效率的平衡灵活和效率的平衡PaddlePaddle开源(PArallel Distributed Deep LEarning)动静统一千亿模型混合并行静态图模式分布式训练大模型时代大模型时代2023大规模分布式大规模分布式极致性能优化极致
4、性能优化PyTorch v2.0+Compile飞桨3.0 Beta待发布+Compile+shard_tensor大语言模型、多模态模型大语言模型、多模态模型飞桨2.0发布飞桨CINN探索Compiler大模型技术发展趋势RWKV使用RNN网络达到跟Transformer可比的效果Mamba:Linear-Time Sequence Modeling with Selective State SpacesSwitch Transformers:Scaling to Trillion Parameter Models with Simple and Efficient Sparsityhttp
5、s:/ 英伟达&西门子 基于AI和物理的风电场数字孪生以比传统方法快 4,0004,000 倍2023年 DeepMind公司提出GraphCast气象模型 90%气象要素预测精度领先权威气象台2021年 DeepMind公司提出AlphaFold2模型突破生物学家50年未解蛋白质结构预测难题2024年 普林斯顿团队用AI提前300毫秒预测核聚变等离子不稳定态开发者开发者飞桨框架飞桨框架AIAI技技术发术发展展硬件硬件产业产业落地落地MoE、多模态AI for Science极致性能:广泛硬件适配、软硬一体协同优化开发体验:动静统一、训推一体、自动并行训、压、推全流程大模型时代的深度学习框架飞
6、桨框架架构图英伟达GPU昆仑XPU海光DCU昇腾NPU寒武纪MLU芯片层芯片层大语言模型多模态模型科学计算计算机视觉语音模型层模型层动态图执行引擎静态图新执行器内存/显存管理优化执行层执行层张量表示数学计算组网优化器自动微分接口层接口层分布式表示层表示层 动转静动转静AST代码转写字节码模拟自动微分自动微分反向微分高阶微分分布式分布式并行策略集合通信自动并行自动并行张量切分策略寻优Program 语义SSA Graph 语义OperationDialectPass组合算子组合算子前向规则反向规则PHIPHI算子库算子库基础算子算子定义算子内核Tensor定义适配层适配层神经网络编译器神经网络编