《AI for science论坛-【邓会鹏丨英特尔】-《基于英特尔®CPU MAX处理器加速AI4Science》.pdf》由会员分享,可在线阅读,更多相关《AI for science论坛-【邓会鹏丨英特尔】-《基于英特尔®CPU MAX处理器加速AI4Science》.pdf(22页珍藏版)》请在三个皮匠报告上搜索。
1、基于英特尔CPU MAX处理器加速AI4Science姓名 邓会鹏职务英特尔AI解决方案架构师议程基于英特尔 oneAPI和TPP张量函数库加速AlphaFold2的蛋白结构预测分析基于开源组学加速框架的scRNA聚类、降维和可视化基于英特尔 OpenVINOTM Model Server 部署生物影像目标检测和图像分割基于英特尔 实现CPU上LLM大语言模型推理量化加速英特尔 CPU MAX 计算加速的新特性此处放置LogoAlphaFold2 的意义和挑战Z.M.Lin et al.bioRxiv 2022受体脱孤/靶点发现A.Anishchico et al.Nature 2021人工工
2、具蛋白设计X.G.Peng et al.arxiv 2022基于对接的小分子药物设计AlphaFold2单克隆抗体设计J.A.Ruffolo et al.20222.AlphaFold2 已成为AI制药新的基础架构AlphaFold2预测的新冠病毒刺突蛋白结构ModernNMRCryoEMX-rayTraditional1.AlphaFold2 加速结构解析:抗菌肽90转录调控蛋白210本体感受受体 1300新冠病毒刺突蛋白1400细菌调控蛋白800亨氏综合症蛋白3200触觉受体B 2500触觉受体A 22003.Intel AlphaFold2 在阿里云上的结果样例:此处放置Logo结果总结
3、高通量场景(非阿里云数据)单实例场景(阿里云数据)长序列场景(阿里云数据)05001000150020002500300002000400060008000内存峰值(GB)序列长度(aa)TBGB长度3600长度1700Jax-AF2Intel-AF2越长越好最大内存/显存的实例上,在SPR上用Intel-AF2能预测的样本长度翻了2.1x且SPR实例月租只有V100实例的23.2%256GB26.24.6105.4156.3A100stock JAX onICXPyTorch IPEXon ICXPyTorch IPEXon SPR5.97x多实例预测在SPR单节点上总通量达到单卡A100的
4、 5.97x且4台g8i-2x实例月租才与gn6v.2x实例的相当(95%)input=768aa3483230205001000150020002500300035004000gn6v.2xg8i.16x越低越好越高越好提升1.51x单实例预测在g8i-16x SPR实例上达到gn6v.2x 单卡V100实例的 1.51x且g8i-16x实例月租与gn6v.2x相当的92%前者性价比(通量/RMB)是后者的 1.64x议程基于英特尔 oneAPI和TPP张量函数库加速AlphaFold2的蛋白结构预测分析基于开源组学加速框架的scRNA聚类、降维和可视化基于英特尔 OpenVINOTM Mo
5、del Server 部署生物影像目标检测和图像分割基于英特尔 实现CPU上LLM大语言模型推理量化加速英特尔 CPU MAX 计算加速的新特性此处放置Logo基于英特尔至强的scRNA单细胞测序后分析正文(微软雅黑,16号字)https:/ scRNA分析支持多种聚类方式和特征维度提供优化的测序或结构分析工具及教程此处放置Logo基于英特尔至强的scRNA单细胞测序后分析scRNA后分析的管线示意图:其中降维、聚类和可视化处理是计算耗时的主要瓶颈https:/ 此处放置Logo基于英特尔至强的scRNA单细胞测序后分析scRNA后分析的管线示意图:其中降维、聚类和可视化处理是计算耗时的主要瓶
6、颈scRNA后分析在英特尔至强 CPU上的速度优化到原来的40 x,比单卡参考GPU速度还快https:/ 此处放置Logo基于开源组学加速框架的降维、聚类和可视化流程https:/ 基于Katana 和 PyScan 的 Louvain的图聚类分析和UMAP可视化基于Kmeans 聚类和tSNE可视化此处放置LogoOpenVINO 工具使用路径OpenVINO 工具使用路径模型训练构建优化部署321Deep Learning Workbench可视化模型微调和推理部署Model Optimizer利用OV支持的框架转换和优化已训练的模型IR 数据读取,加载,推理Intermediate R