《2024龙蜥大会英特尔分论坛:xFasterTransformer助力龙蜥加速LLM推理性能- 缪金成.pdf》由会员分享,可在线阅读,更多相关《2024龙蜥大会英特尔分论坛:xFasterTransformer助力龙蜥加速LLM推理性能- 缪金成.pdf(23页珍藏版)》请在三个皮匠报告上搜索。
1、助力龙蜥加速LLM推理性能xFasterTransformer英特尔数据中心与人工智能事业部高级软件工程师缪金成缪金成就职于英特尔数据中心与人工智能事业部,主要从事深度学习框架及大模型应用在至强处理器上的软件优化工作。英特尔数据中心与人工智能事业部高级软件工程师在 xFasterTransformer 开源社区中,负责新模型引入和低比特量化的开发与优化。第五代英特尔至强处理器介绍0101LLM推理加速框架xFasterTransformer优化策略介绍0202性能介绍及Demo0303第五代英特尔至强处理器介绍更大的三级缓存(LLC)高达 3倍支持CXL 内存带宽扩展英特尔 高级矩阵扩展(In
2、tel AMX)Better AMX Frequencies,with new licensing levels 英特尔 AI 软件Optimizations up-streamed300+DL Models50+optimized ML and Graph ModelsIntel AI Developer Tools高达64核*与第四代英特尔 至强 可扩展处理器相比更高的内存带宽高达 5600 MT/s第五代英特尔 至强 可扩展处理器PyTorch containers https:/ containers https:/ 高级矩阵扩展(Advanced Matrix eXtensions)
3、4thGen and 5thIntel Xeon Scalable ProcessorBuild-in AI Accelerationin Every CoreUp to 8x gen-on-gen compute increaseNew Advanced Matrix ExtensionsIntel AMX英特尔 高级矩阵扩展(AMX)是每个SPR和EMR内核都有的专用硬件模块,有助于加速深度学习任务英特尔高级矩阵扩展(AMX)Advanced Matrix Extensions(AMX)旨在提升深度学习推理和训练性能.TMUL(Tile Matrix Multiply)TMUL(Tile
4、Matrix Multiply)矩阵乘法指令集,TILES上的首批操作数用TILES里面的数据计算TMUL 实现矩阵乘加运算(C=+A*C),使用3个Tile寄存器(T2=+T1*T0)TILESTILES可扩展二维寄存器 8个新寄存器,每个1Kb:T0-T7寄存器支持基本的数据操作 加载/存储,清除,设置为常量,等等.AMX ExtensionsFeature SetDescriptionInstructionsAMX-TILE基本的tile指令7 条指令AMX-INT8INT8数据类型点乘4 条指令AMX-BF16BF16数据类型点乘1 条指令1.251.101.291.291.171.2
5、41.241.421.191.401.441.361.261.361.411.24AI 训练AI实时推理AI批量推理第五代至强处理器(8592+)和第四代至强处理器(8480+)性能对比归一化性能,以8480+为基数,越高越好英特尔 至强 处理器-显著的AI性能提升LLM推理加速框架xFasterTransformer优化策略介绍xFasterTransformer 简介开源项目:https:/ 2.0许可支持多种数据精度(BF16,FP16,INT8,W8A8,INT4,NF4 )支持混合精度计算支持多种大模型:LLAMA/2,ChatGLM/2/3,Qwen,Baichuan/2 等高效的
6、跨节点分布式推理xFasterTransformer 架构优化策略 Attention 优化优化策略 分布式推理优化Distributed inference based on oneCCLOne time synchronization per layer is enough for some models优化策略 Attention分布式推理优化策略 低精度量化和稀疏化性能介绍及Demo性能情况Llma2-7B/ChatGLM1/2-6B on Intel Xeon CPU Max 9468 单颗至强Max处理