《英特尔+阿里云机器学习PAI:全栈赋能AI生态加速应用落地-AI工程化技术峰会(12页).pdf》由会员分享,可在线阅读,更多相关《英特尔+阿里云机器学习PAI:全栈赋能AI生态加速应用落地-AI工程化技术峰会(12页).pdf(12页珍藏版)》请在三个皮匠报告上搜索。
1、英特尔+阿里云机器学习PAI魏彬英特尔公司中国区超大云计算软件架构总监全栈赋能AI生态,加速应用落地Contents目录01英特尔AI技术02Alibaba大规模稀疏模型训练引擎03合作历程04DeepRec 优化05案例分享英特尔AI技术Simplicity,Productivity&PerformanceIntel Solutions MarketplaceSolutionsToolsScikit-LearnTechnologyPandasNumPy/SciPyXGBoost&MoreCPUGPUFPGAAIStorageMemoryConnectivityPush to Start AI
2、200+turnkey solutions&providers to choose fromBuild Smarter,Faster150+containers to streamline end-to-end data scienceAccelerate Your AI,TodayHigh Speedup across 20 top AI workloadsSee claims 43,44 at for workloads and configurations.Results may vary.Alibaba大规模稀疏模型训练引擎DeepRec 阿里巴巴集团稀疏场景的统一训练引擎,由集团多个
3、团队合作共建;2016年深耕至今,支持了淘宝搜索、推荐、广告等核心业务;同时为阿里云客户的推荐业务提供服务;沉淀了大量算子优化、图优化、Runtime优化、编译优化,并基于硬件实现深度定制优化,支持高性能分布式训练,在稀疏模型的训练方面有着优异的性能;支持召回/排序/多任务等常见场景和主流模型,包括EasyRec模型集,DLRM,DIEN,DIN,WDL,DSSM等Internal(Non-Cloud)External(Cloud)Alimama RecoAlibaba SearchAlibaba Recommendation services/productsEasyRec ModelsDL
4、RMModel ZooDIENDeepFMWDLDSSMDeepRecAI toolsCPU(CLX/ICX/CPX/SPR)PMEMHardwareFPGA合作历程2019/07Alibaba AI Workshop2020/01ResNet_v2_50VNNI 量化+1.5X2020/05PAI-TF enablingoneDNN+1.2X2020/05BertTextCNNCPX launch2020/06探索融合矩阵连乘2020/06BladeCPU Bert+4.3X2020/07统一TF线程池2020/09Intel-TFBF16 enabling+1.6X2020/09稀疏模型典
5、型OP优化+1.5X2020/09MobileNetCPX ramp up2020/09模型权重全链路Packing 2020/09TVM enable oneDNN+1.5X2020/10Attention子图优化2021/03阿里云客户模型1.25x2021/04阿里云客户模型:1.5x2x2021/4DeepRec联合开发2021/06ICX into PAI-EAS2021/08EasyRec 开源2021/8DeepRecPMEM 优化2020/10Attention子图优化2021/9Model zooDeepRecBF16 优化推理:训练:DeepRec 优化针对稀疏模型的典型算
6、子优化(Select,Transpose,BiasAddGrad,SparseSegmentMean,ConcatV2),充分利用AVX512,BF16指令加速将大矩阵进行分块,提升cache命中率,减少访存开销2x算子优化Attention 模型的图优化:QKV MatMul融合,MatMul循环合并模型权重全链路 Packing 的优化,提升数据局部性,降低cache miss融合矩阵连乘的优化融合Embedding Column 子图,加速比可达1.6x2x子图优化整合最新的Intel oneDNN加速库,实现线程池调度优化,获取最好性能基于PME