《AI for science论坛-【邓会鹏丨英特尔】-《基于英特尔®CPU MAX处理器加速AI4Science》.pdf》由会员分享,可在线阅读,更多相关《AI for science论坛-【邓会鹏丨英特尔】-《基于英特尔®CPU MAX处理器加速AI4Science》.pdf(22页珍藏版)》请在三个皮匠报告上搜索。
1、基于英特尔CPU MAX处理器加速AI4Science姓名 邓会鹏职务英特尔AI解决方案架构师议程基于英特尔 oneAPI和TPP张量函数库加速AlphaFold2的蛋白结构预测分析基于开源组学加速框架的scRNA聚类、降维和可视化基于英特尔 OpenVINOTM Model Server 部署生物影像目标检测和图像分割基于英特尔 实现CPU上LLM大语言模型推理量化加速英特尔 CPU MAX 计算加速的新特性此处放置LogoAlphaFold2 的意义和挑战Z.M.Lin et al.bioRxiv 2022受体脱孤/靶点发现A.Anishchico et al.Nature 2021人工工
2、具蛋白设计X.G.Peng et al.arxiv 2022基于对接的小分子药物设计AlphaFold2单克隆抗体设计J.A.Ruffolo et al.20222.AlphaFold2 已成为AI制药新的基础架构AlphaFold2预测的新冠病毒刺突蛋白结构ModernNMRCryoEMX-rayTraditional1.AlphaFold2 加速结构解析:抗菌肽90转录调控蛋白210本体感受受体 1300新冠病毒刺突蛋白1400细菌调控蛋白800亨氏综合症蛋白3200触觉受体B 2500触觉受体A 22003.Intel AlphaFold2 在阿里云上的结果样例:此处放置Logo结果总结
3、高通量场景(非阿里云数据)单实例场景(阿里云数据)长序列场景(阿里云数据)05001000150020002500300002000400060008000内存峰值(GB)序列长度(aa)TBGB长度3600长度1700Jax-AF2Intel-AF2越长越好最大内存/显存的实例上,在SPR上用Intel-AF2能预测的样本长度翻了2.1x且SPR实例月租只有V100实例的23.2%256GB26.24.6105.4156.3A100stock JAX onICXPyTorch IPEXon ICXPyTorch IPEXon SPR5.97x多实例预测在SPR单节点上总通量达到单卡A100的
4、 5.97x且4台g8i-2x实例月租才与gn6v.2x实例的相当(95%)input=768aa3483230205001000150020002500300035004000gn6v.2xg8i.16x越低越好越高越好提升1.51x单实例预测在g8i-16x SPR实例上达到gn6v.2x 单卡V100实例的 1.51x且g8i-16x实例月租与gn6v.2x相当的92%前者性价比(通量/RMB)是后者的 1.64x议程基于英特尔 oneAPI和TPP张量函数库加速AlphaFold2的蛋白结构预测分析基于开源组学加速框架的scRNA聚类、降维和可视化基于英特尔 OpenVINOTM Mo
5、del Server 部署生物影像目标检测和图像分割基于英特尔 实现CPU上LLM大语言模型推理量化加速英特尔 CPU MAX 计算加速的新特性此处放置Logo基于英特尔至强的scRNA单细胞测序后分析正文(微软雅黑,16号字)https:/ scRNA分析支持多种聚类方式和特征维度提供优化的测序或结构分析工具及教程此处放置Logo基于英特尔至强的scRNA单细胞测序后分析scRNA后分析的管线示意图:其中降维、聚类和可视化处理是计算耗时的主要瓶颈https:/ 此处放置Logo基于英特尔至强的scRNA单细胞测序后分析scRNA后分析的管线示意图:其中降维、聚类和可视化处理是计算耗时的主要瓶
6、颈scRNA后分析在英特尔至强 CPU上的速度优化到原来的40 x,比单卡参考GPU速度还快https:/ 此处放置Logo基于开源组学加速框架的降维、聚类和可视化流程https:/ 基于Katana 和 PyScan 的 Louvain的图聚类分析和UMAP可视化基于Kmeans 聚类和tSNE可视化此处放置LogoOpenVINO 工具使用路径OpenVINO 工具使用路径模型训练构建优化部署321Deep Learning Workbench可视化模型微调和推理部署Model Optimizer利用OV支持的框架转换和优化已训练的模型IR 数据读取,加载,推理Intermediate R
7、epresentation(.xml,.bin)推理引擎利用一套通用 API 调用各种硬件加速部署模型的推理OpenCVOpenCL Drivers&Runtime LinuxDeep Learning StreamerCode Samples and Demos(e.g.Benchmark app,AccuracyChecker,Model Downloader)训练后优化工具(POT)无需重训练将模型转为INT8低精度,并将精度下降控制在可接受的范围(比如0.5%)模型服务(OVMS)基于C+后端的gRPC/REST 推理服务Deployment Manager开源模型库280+可下载的开
8、源优化的预训练模型议程基于英特尔 oneAPI和TPP张量函数库加速AlphaFold2的蛋白结构预测分析基于开源组学加速框架的scRNA聚类、降维和可视化基于英特尔 OpenVINOTM Model Server 部署生物影像目标检测和图像分割基于英特尔 实现CPU上LLM大语言模型推理量化加速英特尔 CPU MAX 计算加速的新特性此处放置Logo汇医慧影AI医学影像解决方案基于汇医慧影的Dr.Turing AI平台的新冠肺炎筛查基于ResNet50-RetinaNet模型的乳腺癌筛查OpenVINO 低精度加速INT8推理速度提升使用OpenVINO工具套件对新冠肺炎CT检测模型优化前后
9、效果对比基于U-Net+和HRNet的病灶分割任务1(图像分割)任务2(目标检测)1.2 模型1.3 性能2.2 模型性能此处放置Logohttps:/ 清洗数据集模型训练模型部署标注新数据手手动标注注自动图像标注模型训练模型部署自动更新标注Segment-Anything 革新了生物图像分析流程英特尔OpenVINO加速的SAM议程基于英特尔 oneAPI和TPP张量函数库加速AlphaFold2的蛋白结构预测分析基于开源组学加速框架的scRNA聚类、降维和可视化基于英特尔 OpenVINOTM Model Server 部署生物影像目标检测和图像分割基于英特尔 实现CPU上LLM大语言模型
10、推理量化加速英特尔 CPU MAX 计算加速的新特性此处放置LogoChatGLM-6B:医疗大模型BF16非量化推理加速4.032.10OOBOpenVINO1st token latency(sec)1.92x182.8647.96OOBOpenVINOrest average token latency(ms/token)3.81x首词延时下降(2K输入)其余平均延时下降(2K输入)1S-SPR9468 Quadrant/HBM-Cache英特尔英特尔 OpenVINOTMTM-LLM非量化方案非量化方案加速英特尔加速英特尔至强至强MAX实例加速性能实例加速性能(48核核)HuiMei此
11、处放置Logo低精度(INT8)加速 LLM 在 SPR 上的推理性能 支持所有主流支持所有主流huggingface或或ggml的的LLM推理推理 将 FP16/BF16 转为 INT8/INT4,以便简化计算复杂度LLaMA-7B,BLOOM-7B1,Startcoder-15B,Pheonix on ggml+BigDLllama.cpp ggml OpenBLAS AVX2-intrinsics AVX512-VNNI(INT8/4)基于基于Sapphire Rapids BigDL Nano 的的 INT4 实时实时 Demohttps:/ 议程基于英特尔 oneAPI和TPP张量函
12、数库加速AlphaFold2的蛋白结构预测分析基于开源组学加速框架的scRNA聚类、降维和可视化基于英特尔 OpenVINOTM Model Server 部署生物影像目标检测和图像分割基于英特尔 实现CPU上LLM大语言模型推理量化加速英特尔 CPU MAX 计算加速的新特性此处放置Logo英特尔 CPU Max处理器64GBHBM2e ComputeMemoryTechnologyI/OAMXAdvancedMatrix Extensions内存带宽受限的应用中有2x*性能提升此处放置Logo英特尔 高级矩阵指令扩展集(AMX)64256Ops/Cycle per core 100%uti
13、lization10242048AVX-512(2xFMA)FP32AMX(TMUL)BF16AMX(TMUL)INT8AVX-512(2xFMA)INT8AMX 架构包含两个部分:Tiles 数据块一种全新的2D可扩展寄存器组 8个新的寄存器,每个1Kb:T0-T7该寄存器组支持基本操作包括 load/store,clear,set to constant等TILES 支持通过XSAVE架构保存状态并接受系统管理TMUL 脉动阵列矩阵乘法指令集,是首个基于TILES的指令集包括一组 MAC 计算网格用于计算”成块”的数据TMUL 使用3组Tile寄存器(T2=+T1*T0)执行矩阵的乘加运算
14、(C=+A*C)TMUL 计算依赖于 TILE 寄存器Express more work per instruction and per op save power for fetch/decode/OOOCC1C2+=ABxA1A2B1此处放置Logo数据中心 计算方法 的加速概览CPUGPUTPU矩阵加速:AMX-BF16/INT8内存扩展:DDR5,HBM2e隐私计算:SGD/TDX,PPML易获取的AI算力易扩展的异构算力高密度的AI算力XMX矩阵加速引擎VectorEngine矢量加速引擎高性能AI训练/推理:LLM等多卡分布式:Gaudi LinkScikit-learnScanP
15、yRegressionSVMCNN RNNTransformersGCN/GRNRL小分子生成 AGME属性预测大分子结构预测抗体-抗原-TCR 界面设计任务模型框架硬件分子对接服务公有云HPC集群分子动力学蛋白互作一体机私有云私有服务器MLPClustering PCAXGBoostBayesianGPT此处放置Logo总结英特尔提供包括oneAPI,TPP/libxmm,OpenVINO,xFasterTransformer等加速阿里云上的8代ECS实例(SPR-SP)和SPR-HBM实例在蛋白结构预测和大分子设计领域,英特尔实现了AlphaFold2管线端到端优化,并在阿里云8代ECS实例完成了部署和TCO及性能验证在医疗影像领域,英特尔全面实现了通用CV模型的适配和加速英特尔联合多家partner,可以为医疗计算提供更完整的生态谢谢