《英特尔中国:2024公有云和互联网创新实践报告(39页).pdf》由会员分享,可在线阅读,更多相关《英特尔中国:2024公有云和互联网创新实践报告(39页).pdf(39页珍藏版)》请在三个皮匠报告上搜索。
1、1英特尔中国公有云和互联网创新实践2Large Language Model(LLM)大语言模型Traditional Deep Learning 传统深度学习技术篇:英特尔 AI 产品组合英特尔 AI 实战视频课程英特尔中国 AI 实战资源库基于英特尔 架构的 AI 软件工具组合031015303637CONTENT目录Large Language Model(LLM)大语言模型34阿里云引入第五代至强 可扩展处理器,实现 ECS g8i 算力再升级,为大模型 AI 推理加速添新解,更易得、更易用、可扩展性强,满足从小模型到超大模型的各类需求。使用处理器内置的 AI 加速引擎-英特尔 AMX
2、 和英特尔 AVX-512,提升并行计算和浮点运算能力;受益于第五代至强 可扩展处理器显著提升的内存带宽和三级缓存共享容量,化解 AI 大模型吞吐性能挑战;利用第五代至强 可扩展处理器内置的英特尔 SGX 和英特尔 TDX 安全引擎,实现端到端的数据全流程保护。CPU 也能玩转 AI-为 AI 提速,给安全加码挑战解决方案云服务器升级解决方案企业云服务第五代英特尔 至强 可扩展处理器具备更强通用计算和 AI 加速能力阿里云 ECS g8i 集群可支撑 72B 参数级别的大语言模型分布式推理文生图创意辅助工具AI 生成代码虚拟助手1.2.3 数据来源于阿里云未公开的内部测试,如欲了解更多详情,请
3、联系阿里云:https:/英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。算力需求激增:视频、数据库等场景算力需求激增智能化应用普及:大模型推理需求爆炸式增长数据安全挑战:数据隐私及安全需求增强85%整机性能提升高达17倍AI 推理性能提升高达250%中小参数模型起建成本降低3为 AI 加速而生的处理器 以针对工作负载优化的性能实现业务增长和飞跃 以高效节能的计算助力降低成本与碳排放 值得信赖的优质解决方案和安全功能 21%整体性能提升42%推理性能提升2.7 倍三级缓存提升10 倍每瓦性能提升16%内存速度提升用友的测试数据如图 4 所示,相较于第四代英
4、特尔 至强 可扩展处理器,第五代英特尔 至强 可扩展处理器在 NLP(YonMaster Dialogue Bot)工作负载中实现了 1.2 倍的代际吞吐性能提升6。00.20.40.60.811.21.4英特尔 至强 铂金 8480+处理器英特尔 至强 铂金 8592+处理器以 8480+处理器的性能结果为基准用友 NLP(YonMaster Dialogue Bot)工作负载性能比较(越高越好)收益 提升 NLP 应用的性能,显著化解 NLP 中频繁的向量化操作所带来的吞吐性能挑战,从而助力上层的智友对话机器人、智能大搜等应用的高效运行。提升了服务器的单位性能密度,在同等性能的水平下,降低
5、了服务器规模的扩展需求,有助于降低 TCO。该应用实践为用友 YonBIP 用户的硬件选型提供参考,用户可以根据实际的性能需求,选择更适用的硬件配置。72B最大可支持参数规模eRDMA 集群batchsize32内存资源丰富eRDMA 集群化部署g8ig8ig8ig8ig8ig8i5千帆大模型平台利用百度智能云平台中丰富的英特尔 至强 可扩展处理器资源,加速 LLM 模型推理,满足 LLM 模型实际部署需求。基于至强 可扩展处理器不断提升的算力和内存带宽,有效支持 LLM 实现端到端加速;采用第四代/第五代至强 可扩展处理器内置的 AI 加速引擎 英特尔 AMX,最大限度地利用计算资源,显著增
6、加 AI 应用程序的每时钟指令数(IPC);利用大模型推理软件解决方案 xFasterTransformer(xFT),进一步加速 LLM 推理。让更加可及、经济的 AI 算力资源,在千行百业扬“千帆”挑战解决方案大模型推理优化解决方案AI 服务平台2.32倍相较于第三代至强 可扩展处理器,基于第五代至强 可扩展处理器的 Llama-2-7b 模型输出 Token 吞吐提升达175%相较于第三代至强 可扩展处理器,基于第五代至强 可扩展处理器的 Llama-2-7b 模型首 Token 时延降低达利用充足的 CPU 资源,降低 LLM 推理服务 TCO百度智能云千帆大模型平台可支持广泛的英特尔
7、 CPU 选择扫码获取全文英特尔 AMX 可以更高效地实现 AI 加速85 int8 ops/cycle/corewith 2 FMA256 int8 ops/cycle/corewith 2 FMAs2048 int8 ops/cycle/coreMulti-fold MACs in one instructionLLM 推理中大量矩阵及向量矩阵乘法对硬件的较高需求满足行业离线 LLM 应用需求,并支持用户快速部署 LLM解决 30B 等规模的 LLM 使用高端 GPU 成本较高等问题Intel AVX-512vpmaddubswvpmaddwdvpadddClock cycle 1Cloc
8、k cycle 2Clock cycle 316-bitconstant16-bitconstant16-bitoutput32-bitacc output32-bitacc output8-bitinput8-bitinputIntel AVX-512(VNNI)Intel AMX8-bit new instructionvpdpbusd8-bitinput8-bitinput32-bitacc input32-bitacc output8-bit new instructionvpdpbusd8-bitinput8-bitinput32-bitacc input32-bitacc inpu
9、t8-bit new instructionvpdpbusd8-bitinput8-bitinput32-bitacc input32-bitacc input8-bit new instructionvpdpbusd8-bitinput8-bitinput32-bitacc input32-bitacc input8-bit new instructionvpdpbusd8-bitinput8-bitinput32-bitacc input32-bitacc input8-bit new instructionvpdpbusd8-bitinput8-bitinput32-bitacc inp
10、ut32-bitacc input8-bit new instructionvpdpbusd8-bitinput8-bitinput32-bitacc input32-bitacc input8-bit new instructionvpdpbusd8-bitinput8-bitinput32-bitacc input32-bitacc input8-bit new instructiontdpbusd8-bitinput8-bitinput32-bitacc input32-bitacc outputFP32 s8 bit exp 23 bit mantissaBF16s8 bit exp7
11、 bit mantissaFP16s5 bit exp10 bit mantissaINT16 s15 bit mantissaINT8s7 bit mantissa第三代英特尔 至强 可扩展处理器模型广场我的模型百度文心大模型第三方大模型第五代英特尔 至强 可扩展处理器英特尔 CPU模型管理数据管理模型精调模型评估&优化推理服务部署第四代英特尔 至强 可扩展处理器下一代英特尔 至强 可扩展处理器模型评估模型压缩Post-pretrainSFT-全量更新RLHFSFT-LoRA增量训练自动评估人工评估快速体验推理加速多算力规格潮汐调度实时监控数据构建数据回流数据标注分析增强清洗预置 Promp
12、t 模板自制 Prompt 模板Prompt 评估Prompt 优化1.2 有关性能和基准测试结果的更完整信息,请访问:https:/ CPU 打造智行云网大脑,网络大模型直面算力拦路虎挑战大模型推理优化解决方案网络大模型40%与主流 GPU 相比,CPU 平台方案可节省算力资源池建设成本3基于 CPU 平台的中国电信网络大模型推理算力方案架构扫码获取全文面向边缘/用户现场的中国电信网络大模型推理部署网络大模型在执行云网运营等应用时,需承受巨大的并发推理压力和性能要求GPU 算力方案会带来巨大的成本压力和能耗,且不利于 LLM 大规模应用网络大模型运行过程对内存容量有较大需求,而 GPU 方案
13、往往缺乏足够的内存容量解决方案中国电信网络大模型方案引入第五代至强 可扩展处理器,借助其内置的多种 AI 加速引擎,结合英特尔开源的 xFT 分布式推理框架,有效平衡大模型推理的性能和成本。采用第五代英特尔 至强 可扩展处理器作为方案的算力核心,利用其更多的内核数量、更强的单核性能和更大的三级缓存容量等,为大模型提供强劲算力支持;利用英特尔 AMX 对 INT8 和 BF16 低精度数据类型的支持,在矩阵运算中有效提高计算速度并减少存储空间占用,更充分地利用计算资源,大幅提升网络大模型推理效能;采用英特尔 AI 软件工具(如 xFasterTransformer)提升推理性能、降低部署成本并便
14、捷地迁移模型。1.2.3 有关性能和基准测试结果的更完整信息,请访问:https:/ 2024 年全国总决赛一等奖3解决方案:基于第五代至强 的 CPU 算力方案为中国电信网络大模型提供高效能推理CPU 在传统上被视为更适于 AI 负载中的通用计算,例如大模型应用的前期数据准备、知识库的存储和处理等工作。随着更多 AI 加速技术嵌入 CPU,以及围绕 CPU 平台的 AI 生态逐步完善,CPU 平台所具备的多项优势使其能在满足大模型推理性能的同时,又可兼具成本、绿色节能等方面的优势。使用 CPU 构建大模型推理方案的优势 CPU 作为通用计算资源更易获取;无需引入异构硬件平台的设计或有关人才;
15、更易获得技术支持和维护;基于既有的 x86 架构设计的开发和部署方案更高效且稳定;可复用既有平台的空闲算力,避免额外投资;可便捷地将 GPU 训练好的模型在 CPU 上推理,无需额外迁移成本;CPU 有着更完备的能耗管理,更利于绿色节能。基于这些优势,中国电信联合英特尔,将英特尔 至强 可扩展处理器引入中国电信网络大模型的基础算力平台,积极探索基于 CPU 平台的大模型推理方案,化解大模型推理能力下沉到省公司的挑战,并为满足各行各业对大模型推理算力的迫切需求探索新路。如图一所示,方案使用第五代英特尔 至强 可扩展处理器作为算力核心。通过其内置的英特尔 AMX、英特尔 AVX-512 等AI 引
16、擎提供的加速能力,中国电信网络大模型能通过分类预测、知识生成、方案撰写、根因分析等能力向上打造智行云网大脑。大脑以故障推理、业务逻辑以及智能交互等多个引擎为驱动力,在流量预测、异常检测、故障管理等云网场景中实现隐患自动发现与维护、故障自动隔离以及云网事件自动处置等网络运营智能化能力。各级运维人员接入后,可以通过知识问答、信息筛选和总结等交互方式,直接使用大模型的推理结果。第五代英特尔 至强 可扩展处理器实现高效的大模型推理的技术关键要素面对高强度、高并发的大模型推理需求,第五代英特尔 至强 可扩展处理器不仅具有更多的内核数量、更强的单核性能和更大的三级缓存(LLC)容量,还可凭借增强的内存子系
17、统,以及全面的 AI 加速环境来为大模型提供强劲的推理算力支持。隐患自动发现与维护故障推理引擎英特尔 深度学习加速(英特尔 DL Boost)英特尔高级矢量扩展512(英特尔 AVX-512)英特尔 高级矩阵扩展(英特尔 AMX)英特尔 软件防护扩展(英特尔 SGX)流量预测中国电信网络大模型英特尔 至强 可扩展处理器异常检测故障管理智能交互智能调度故障自动隔离业务逻辑引擎云网事件自动处理智能交互引擎知识推理可信决策场景编排能力解耦多轮交互人机对话分类预测、知识生成、方案撰写、根因分析、回复润色、RPA指令自动生成、语义质检图 1 基于 CPU 平台的中国电信网络大模型推理算力方案架构白皮书|
18、中国电信携英特尔积极探索基于至强 CPU 平台的网络大模型推理算力方案5进行即时/近即时处理。为了更好地满足业务需求并提升使用体验,中国电信选用了符合 OTII 标准的边缘服务器。网络大模型训练网络大模型推理网络大模型推理知识库数字平台数字平台GPU训练资源池至强 CPU 推理资源池至强 CPU推理资源池标准/液冷服务器标准服务器OTII 服务器集团省公司大模型平滑迁移大模型性能优化边缘/用户现场图 4 面向边缘/用户现场的中国电信网络大模型推理部署边缘部署的环境复杂性通常比数据中心更高,有时甚至需要在极端恶劣的环境中部署。这意味着边缘服务器需要在功耗、体积、耐用性等方面符合特定要求,能在极端
19、高低温、灰尘、腐蚀、震动冲击、电磁干扰等情况下保持稳定运行。得益于在配置规格、物理形态、供电及环境适应性等方面的设计,符合 OTII 标准的边缘服务器能够让中国电信根据工作负载精细地调整基础设施功能,无需改造大量的边缘机房即可支持边缘侧的大模型推理,实现性能和总拥有成本(Total Cost of Ownership,TCO)等方面的均衡。此外,由于 CPU 的运行功耗低于 GPU,可以显著降低网络大模型运营所需的能耗。以第五代英特尔 至强 可扩展处理器为例,得益于多种创新技术和功能的加入,以及工艺制程与封装技术的不断升级,功耗获得持续优化,相比前一代产品的开箱即用能耗比提升高达 34%2,并
20、可通过启用平台 BIOS 中经优化的电源模式,为特定工作负载进一步提高能效和节省成本,从而帮助中国电信更好地实现节能减排,贴近绿色算力的发展目标。成果验证与应用成效:全方位赋能网络运营,提升客户体验 为验证大模型推理在 CPU 上的部署可行性,中国电信研究院联合英特尔在 ETSI ENI 行业规范工作组中,开展了至强 CPU 支持大模型推理的验证工作,推动业界一起关注为解决大模型算力需求的创新型解决方案。该 PoC 项目情况及验证结果由 ETSI 公开发布,详见 ETSI 网站3。同时,2024 年 6 月,中国电信携手英特尔,通过在标准服务器/OTII 服务器上配置第五代英特尔 至强 可扩展
21、处理器并使用 xFT 框架,分别部署中国电信网络大模型(13B 参数)和开源 Qwen 大模型(参数量 14B),由中国权威测试机构实验室进行了全方位的测试4。中国电信网络大模型的验证测试如表一所示,涵盖了规章制度、维护要求、维护问题等多个场景。场景 1监控排障场景-作业安全技术规范场景 2隐患发现场景-生产安全事故报告场景 3网络及业务质量优化场景-宽带网络性能场景 4网络及业务质量优化场景-接入网性能场景 5割接维护场景-全光网网络故障场景 6故障自识别率场景-网络感知场景 7服务编排场景-网络配置场景 8故障预测场景-安全风险场景 9运维优化场景 5G 网络优化场景 10感知提升场景-云
22、计算业务优化表 1 电信运营商场景推理测试用例测试总结如图五和表二所示,中国电信网络大模型在吞吐量、首字符时延和生成时延方面都与规模相当的开源大模型性能表现一致,在 CPU 平台上的生成时延均小于 100 毫秒5,符合业务响应时间要求,可以满足电信网络运营维护等多场景推理应用需求。同时,中国电信网络大模型的生成内容也符合预期,性能精度达到了设计需要。测试结果也表明,基于现有 x86 架构的算力平台,可以满足运营商推理应用需求,有利于降低运营商在大模型算力领域的成本及资源需求。白皮书|中国电信携英特尔积极探索基于至强 CPU 平台的网络大模型推理算力方案7京东云推出搭载第五代至强 可扩展处理器的
23、新一代云服务器,以处理器内置 AI 引擎显著加速多种云上大模型推理,有效支撑 11.11 促销运行高峰。利用第五代至强 可扩展处理器及其内置的 AI 加速引擎-英特尔 AMX,在提升算力的同时,高效处理大量矩阵乘法运算,提升 AI 推理性能;使用英特尔 oneDNN 对 CPU、GPU 或两者使用相同的 API,抽象出指令集的其他复杂的性能优化,实现深度学习构建块的高度优化。看如何用 CPU 加速的 AI 大模型构建数智化供应链挑战解决方案云服务器升级解决方案大模型推理调优4.19倍基于第五代至强 可扩展处理器,通过英特尔 AMX 将模型转化为 BF16,JD SE-ResNext-50推理性
24、能提升高达1 51%+京东与英特尔联合定制优化的第五代至强 可扩展 处理器较上一代的推理性能(Token 生成速度)提升了2避免采购专用硬件 加速器的高昂支出Llama2-13B 推理性能测试数据3 扫码获取全文英特尔 AMX 架构1.2.3 有关性能和基准测试结果的更完整信息,请访问:https:/ AI 服务器带来的灵活性挑战每核可存储更大的数据块可在单次运算中计算更大矩阵的指令TILE2D 寄存器文件平铺矩阵乘法(TMUL)2 9 01 3 52 4 78 1 5英特尔 AMX11.5100.20.40.60.811.21.41.6 8438C AMX,BF16)8538C AMX,BF
25、16)以 8438C Llama2-13B 推理性能(越高越好)8火山引擎第三代弹性计算云服务器实例 g3i 引入第五代至强 可扩展处理器进行全新升级,通用性能与应用场景性能均大幅提升,可有力胜任高达 80 亿参数的模型推理,并兼顾速度与成本。基于火山引擎最新自研 DPU2.0 架构和第五代至强 可扩展处理器显著提升的代际性能、更高的 CPU 核心数、更快的内存以及更大的末级缓存容量,显著提升 g3i 算力性能,实现内存扩容,有效为 LLM 与更多场景提供支撑;利用第五代至强 可扩展处理器及其内置的 AI 加速引擎-英特尔 AMX,在提升算力的同时,高效处理大量矩阵乘法运算,提升 AI 推理性
26、能,胜任 80 亿参数模型推理,降低中小模型推理成本。中小模型推理新选择!算力 性能倍增,实例全新升级挑战解决方案云实例算力升级解决方案云服务/弹性计算122%火山引擎 g3i 整机算力提升175%火山引擎 g3i 内存带宽提升23.43倍在 1,024*1,024 分辨率下,使用英特尔 AMX 将数据 转换为 BF16,SDXL-Turbo 文生图推理可实现加速比3提供更加稳定可靠、弹性灵活、性能优越的云实例不断拉升云实例算力性能,满足变化迅速的业务需求支持内置 AI 加速的算力需求,兼顾速度与成本SDXL-Turbo 文生图推理性能4火山引擎 g3i 可胜任 80 亿参数的模型推理5LIa
27、ma-3-8B首包时延0.75s吞吐性能22 Token/s201510501024*1024512*512图片像素3.43 倍加速比3.57 倍加速比单次平均耗时FP32BF161.2.3.4.5 数据来源于火山引擎未公开的内部测试,如欲了解更多详情,请联系火山引擎:https:/英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。9金山云推出搭载第四代至强 可扩展处理器的新一代云服务器,以针对性调优的模型镜像,充分利用原生 AI 加速能力,有效提升云上大模型推理性能。利用第四代至强 可扩展处理器提供的强劲底层算力支撑,及内置 AI 加速引擎-英特尔 AMX
28、,以矩阵运算显著提升 AI 推理性能;基于英特尔 MKL 及英特尔 oneDNN 搭建大模型镜像,在满足计算准确率的前提下,进一步提升模型 性能。实现云端“算力+模型”一站式部署挑战解决方案云服务器升级解决方案大模型推理调优3.97-4.96倍采用 IPEX 2.0 BF16 优化后,Stable Diffusion 模型推理性能提升达12.52-2.62倍在 LLaMa2-AMX 和 ChatGLM2-AMX 性能测试中,经英特尔 Super-Fuse 优化后,LLM 推理性能提升达2灵活满足各种应用负载所需Stable-Diffusion 模型优化前后性能对比3扫码获取全文大语言模型优化前
29、后性能对比4051015202530Stock PyTorch v2.0 FP32Super-Fuse LLM Sol.LLaMa2-7BChatGLM2-6BLLM(BS=1,Prompt Seq Length=34/59,Maxout=100)在 SPR8458P 48vcore 上推理性能(PyTorch FP32 vs.Super-Fuse LLM Solution,9.4724.822.62 倍加速比22.338.852.52 倍加速比1.2.3.4 有关性能和基准测试结果的更完整信息,请访问:https:/ 20.00 40.00 60.00 80.00 100.00 120.00
30、 140.00 160.00 512 w/50 steps50.20 65.39148.7614.4112.653.97 倍加速比4.54 倍加速比768 w/20 steps7s720p w/20 steps在上推理性能(PyTorch FP32 vs.IPEX BF16,越低越好)Stock PyTorch v2.0 FP32IPEX v2.0 BF1629.984.96 倍加速比采用高性能、高经济性的模型推理算力基础利用创新的 AI 硬件加速策略,提升模型推理灵活性以经过调优的模型镜像,充分调用硬件加速能力10Traditional Deep Learning传统深度学习1011阿里妈妈
31、引入第五代至强 可扩展处理器作为算力核心,并借助处理器内置的英特尔 AMX 及软件方案,为新方案提供面向 AI 推理的优化加速,为平台带来更优的推荐效果。利用第五代至强 可扩展处理器更大的末级缓存容量等为推荐系统提供强劲的算力支持;英特尔 AMX 可提供矩阵类型的运算且同时支持 INT8 和 BF16 数据类型,助力阿里妈妈推荐系统在保证精度影响最小的前提下加速推理过程;借助英特尔 oneDNN、算子融合等软件方案,加速矩阵运算,提升内存访问效率。激发硬件 AI 加速潜能,让每一份推荐都“算数”挑战解决方案AI 模型推理加速案例研究智能推荐系统典型的阿里妈妈推荐系统架构第五代至强 可扩展处理器
32、带来的吞吐性能提升21.2 有关性能和基准测试结果的更完整信息,请访问:https:/ AI 加速1.52倍基于第五代至强 可扩展处理器的广告推荐模型,经过英特尔 AMX 和英特尔 AVX-512 优化后,相较上一代吞吐性能提升达1提升智能推荐系统 准确性和效率更精准的商品匹配和信息推荐推荐内 容列表召回粗排精排重排容集合 0.00.51.01.52.0 1.52X扫码获取全文12阿里云携手英特尔合作改进 DDR5 内存可靠性,联合开发了面向 DDR5 的内存故障预测和预防解决方案,帮助提升服务器的可靠性和业务的正常运行。方案在 BMC 中集成英特尔 MRT 技术提供 AI 辅助的实时预测和内
33、存故障分析,其利用多维模型和人工智能算法,在微观层面检测内存故障,使得数据中心提前预警和主动预测潜在的内存故障风险;在平台中引入第五代至强 可扩展处理器,助力阿里云数据中心为不同工作负载提供更加强劲的算力支持。AI 辅助提升 DDR5 内存可靠性,让数据中心一直“在线”挑战解决方案AI 辅助故障分析解决方案数据中心内存故障1.2.3 有关性能和基准测试结果的更完整信息,请访问:https:/ 可扩展处理器,方案经过迭代优化后,预期能够预测的不可纠正错误(UE)达174%基于第五代至强 可扩展处理器,方案经过迭代优化后,预期能够预测的可纠正错误(CE)达2快速且全面的硬件监控服务DDR5 引入了
34、新的架构和信号传输方式,需要更复杂的电路设计和优化DDR5 内存模块容量更大,增加了故障的风险In-DRAM 纠错码(ECC)导致主机错误观察不够明确 解决方案架构图高效的 UE 和 CE 风暴预测3扫码获取全文ProcessorMemoryControllerDDR5BMCAlibabaCloudCruiserSystem IntelMRTBIOSOSColumnRowBankDRAM RankColumnRowBankFailureFault0%10%20%30%40%50%60%70%80%UE CE 高效的 UE 和 CE(越高越好)57%74%Micro-level memoryer
35、ror data13AI+游戏,让消消乐玩法 更多样,体验更顺畅挑战AI 模型推理优化案例研究游戏开发与运营开心消消乐新春扫龙字活动模型测试数据31.2.3 有关性能和基准测试结果的更完整信息,请访问:https:/ 更多AI 扩展应用英特尔 AMX 架构乐元素引入基于第五代至强 可扩展处理器的新一代腾讯云实例 S8,并采用处理器内置的 AI 加速引擎,软硬结合加速 AI 推理,提升开发效率和游戏体验。利用基于第五代至强 可扩展处理器的腾讯云实例 S8 获得平衡、稳定的计算、内存和网络资源;采用处理器内置 AI 加速引擎-英特尔 AMX,高效处理矩阵乘法运算,加速基于 CPU 的 AI 推理,
36、避免使用独立加速器带来的成本和复杂性;借助英特尔 oneDNN 这一开源、跨平台的库,开发人员可对 CPU、GPU 使用相同的 API,从而抽象出指令集和其他复杂的性能优化,显著降低编程难度。3.44倍相较于第三代至强 可扩展平台,基于第五代至强 可扩展平台+英特尔 AMX 将模型转化为 BF16,推理性能提升达1 5.19倍基于第五代至强 可扩展处理器+英特尔 AMX,新春扫龙字活动模型推理性能提升达2每核可存储更大的数据块可在单次运算中计算更大矩阵的指令TILE2D 寄存器文件平铺矩阵乘法(TMUL)2 9 01 3 52 4 78 1 5英特尔 AMX以 S6 性能结果为基准开心消消乐新
37、春扫龙字活动模型推理吞吐性能(越高越好)S6(FP32,AVX512)6543210S8(FP32,AVX512)+1.19X+5.19XS8(BF16,AMX)14ERNIE Tiny 用“芯”瘦身 加速 NLP 应用商业落地挑战模型量化解决方案自然语言处理2.66倍采用第四代英特尔 至强 可扩展处理器的 ERNIE-Tiny 吞吐量提升达1减半ERNIE Tiny Medium 版与基础版 ERNIE 3.0 相比,其网络层数2与英特尔 AVX-512 相比,英特尔 AMX 可带来 8 倍以上的效率提升4ERNIE-Tiny 对外能力输出1.2.3.4 有关性能和基准测试结果的更完整信息,
38、请访问:https:/ AI 推理运算时间和更少的算力需求在既有 CPU 平台上高效率完成推理任务,减少对昂贵的专用 AI 算力设备的需求,降低 TCO扫码获取全文百度 ERNIE-Tiny 使用内置英特尔 AMX 的第四代英特尔 至强 可扩展处理器,配合多项优化措施,充分利用处理器带来的性能加速“红利”,大幅提升推理效率。采用第四代英特尔 至强 可扩展处理器作为 ERNIE Tiny 推理工作的算力输出引擎,为高强度工作负载提供更可靠的全局加速;以第四代至强 可扩展处理器内置的 AI 加速技术-英特尔 AMX,大幅提升 ERNIE-Tiny 推理性能;利用英特尔 oneDNN 实现对英特尔
39、AMX 的调用,有效助力用户提升 AI 应用及框架性能。解决方案2,048 次INT8 运算1,024 次BF16 运算英特尔 AMX 每个物理核在每个时钟周期可实现35量操作时间。优化方案则是将矩阵乘法与元素的运算及激活融合在一起,即把连续的操作合并为一个大操作,可使内存的运行效率显著提升。同时,方案中针对多线程的优化也被证明可助力 ERNIE 3.0 提升推理计算性能,与上一版本相比,方案进一步优化了多线程的效率,并提升了多核的扩展性。优化方案验证:第四代英特尔 至强 可扩展处理器可大幅提升 ERNIE-Tiny 性能表现为了验证第四代英特尔 至强 可扩展处理器与上述多项优化方案对 ERN
40、IE-Tiny 性能提升的实际作用,英特尔协助 百度推进了性能对比测试。测试在第四代英特尔 至强 可扩展平台与第三代英特尔 至强 可扩展平台之间展开。后者使用 英特尔 AVX-512_VNNI 对模型进行了 INT8 量化提速,而前者则启用英特尔 AMX 技术进行加速。测试结果如图四所示,ERNIE-Tiny 的性能(测试采用吞吐量(Throughput)作为测评指标)获得了显著的提升,对比上一代 英特尔 至强 可扩展平台,其吞吐量提升到了它的 2.66 倍9。测试配置 1测试配置 2吞吐量(越高越好)2.66X150001000050000551314675图四 ERNIE-Tiny 在不同
41、处理器平台上的性能对比10 如图五所示,目前,各个 ERNIE-Tiny 不仅已部署在零门槛 AI开发平台 EasyDL、全功能 AI 开发平台 BML 和 ERNIEKit (旗舰版)产品中,它们也将与平台和产品的其它能力一起协同,在基于第四代英特尔 至强 可扩展处理器的基础设施上,为使用者提供文本分类、关系抽取、文本生成以及问答等能力。同时,它们也将作为百度飞桨 PaddleNLP 自然语言处理开发库的核心模型,搭配训练-压缩-推理端到端全流程应用与丰富的产业实践范例,全力加速 NLP 技术产业落地。(如欲了解更多详情,请访问:https:/ 至强 可扩展处理器构建的基础设施EasyDLB
42、MLERNIEKitPaddleNLP图五 ERNIE-Tiny 对外能力输出未来展望百度与英特尔本次协作优化的成功,再一次证明各个行业用户在通用的 CPU 平台上也能同样方便地部署高效能的 ERNIE-Tiny,用以应对越来越多的 NLP 应用需求。使用这一方案,用户不必额外采购昂贵的专用 AI 算力设备,这将大幅降低企业借助 NLP 能力提升业务效率的门槛,并加速更多 NLP 技术与应用的商业落地过程。面向未来,英特尔还将与百度一起在 NLP 领域开展更多也更为深入的技术合作,让新一代至强 可扩展处理器及其内置的更强 AI 加速技术为更多 AI 应用的落地与实践提供更多助力。白皮书|验证至
43、强内置全新 AI 加速技术:AMX 助百度 ERNIE-Tiny 性能提升达 2.66 倍Floating Point10246416XFaster2048IntegerOps/Cycle per core 100%utilization2568XFasterAVX-512(2xFMA)FP32AMX(TMUL)BF16AVX-512(2xFMA)INT8AMX(TMUL)INT8r is BetterteHigh15技术篇:英特尔 AI 产品组合开放式软件环境深度学习加速通用加速通用计算AI 视觉推理、VDI、媒体分析并行计算、科学计算、面向科学计算的 AI、数据中心实时,中等吞吐量,低时延
44、和稀疏推理边缘和网络AI 推理中小型训练和微调终端推理专用于深度学习训练和推理加速1516数据预处理AI 模型训练和微调英特尔数据科学工作站机器学习训练,间歇性深度学习训练,迁移学习低时间敏感度训练现有的数据预处理基础设施大规模专项 AI 训练或高时间敏感度训练机器学习和高性能、高性价比的深度学习训练通过编码/解码实现可视化推理集成 NPU针对大规模时延敏感型 AI 推理工作负载,如大语言模型科学计算和大中型 AI 模型训练工作负载的混合详见注解数据中心终端/边缘AI 推理注:不限于以上所示典型的部署路径,所有计算平台均适用英特尔 XPU 平台:满足 AI 之旅各阶段需求17英特尔 至强 6
45、处理器家族通用平台基础和共享软件堆栈内核密度工作负载和使用情况内核性能E-coreP-core计算密集型和AI 工作负载通用工作负载高密度和横向扩展工作负载精心优化实现更高性能 满足计算密集型 和 AI 工作负载需求精心优化实现更优能效 满足高密度和横向扩展工作负载需求18每颗 CPU 集成多达 128 个性能核更大三级共享缓存高达 504 MB 多达 96 条通道 PCIe 5.0R1S:支持 136 条通道 PCIe 5.0 Compute Express Link 2.0(CXL 2.0)多达 64 条通道支持 Type 3“Flat”内存模式 英特尔 UPI 2.0高达 6 UPI 2
46、.0高达 24 GT/s更高内存带宽多达 12 个通道 DDR5(高达 6400MT/s)采用 MRDIMM 内存(高达 8800MT/s)支持单路到八路设计(高端 6900P 系列最多支持双路)内置 AI 与科学计算加速引擎英特尔 AMX(增加对 FP16 数据格式的支持)英特尔 AVX-512 其它内置加速引擎英特尔 QAT/英特尔 IAA英特尔 DSA/英特尔 DLB 硬件增强型安全特性英特尔 SGX/英特尔 TDX 英特尔 Scalable Vector Search(SVS)可调用英特尔 AMX 加速能力优化大模型应用的好搭档向量数据库的性能表现 计算单元(Compute Die)基
47、于英特尔 3 制程工艺 英特尔 至强 6 性能核处理器19英特尔 至强 6 能效核处理器多达 288 个内核1(每个处理器)AI 和科学计算英特尔 高级矢量扩展 2(VNNI/INT8)英特尔 数据流加速器(英特尔 DSA)安全性英特尔 软件防护扩展(英特尔 SGX)英特尔 信任域扩展(英特尔 TDX)英特尔 密码操作硬件加速存储和分析英特尔 数据流加速器(英特尔 DSA)英特尔 存内分析加速器(英特尔 IAA)英特尔 数据保护与压缩加速技术(英特尔 QAT)网络英特尔 数据保护与压缩加速技术(英特尔 QAT)英特尔 动态负载均衡器(英特尔 DLB)更大三级缓存(L3):高达 216 MB更多
48、内存通道:多达 12 条 英特尔 UPI 2.0 速度:高达 24 GT/s多达 188 条 PCle 5.0 通道(双路服务器)Compute Express Link(CXL)2.0 通道Type 3 内存支持1 已推出的 6700E 系列每个 CPU 拥有多达 144 个内核,25 年 1Q 发布的 6900E 系列最高达 288 个内核 Web 和微服务数据库数据分析存储媒体AI 推理网络边缘20第五代英特尔 至强 可扩展处理器多达 64 个内核(每个处理器)英特尔 AMX更高的 AMX 频率,全新许可水平每个内核均内置 AI 加速器集成 IP 加速器英特尔 数据保护与压缩加速技术(英
49、特尔 QAT)英特尔 存内分析加速器(英特尔 IAA)英特尔 数据流加速器(英特尔 DSA)英特尔 动态负载均衡器(英特尔 DLB)更高的能效内置加速器提供高效计算/更高的每瓦性能经优化的电源模式 2.0/针对工作负载优化的 SKU无缝固件升级缩短停机时间更全面的机密计算产品组合英特尔 SGX英特尔 TDX英特尔 Trust Authority 更高内存带宽:高达 5,600 MT/s 更大三级缓存(LLC):高达 3 倍1(PCIe 5)UPI 2.0 速度:高达 20 GT/sCompute Express Link(CXL)1.1*Type 3 内存支持无需更改代码即可直接兼容第四代英特
50、尔 至强 可扩展处理器1 详情请见以下网址的 G11: 至强 可扩展处理器)。结果可能不同。2.3 详情请见以下网址的 G1,A16: 至强 可扩展处理器)。结果可能不同。4 基于英特尔 2023 年12 月进行的内部建模。详情请见以下网址的A1,A2,A16: 至强 可扩展处理器)。结果可能不同。与第四代至强 相比平均性能提升221%与第四代至强 相比,AI 推理性能提升3 42%运行参数量在 200 亿以下的 LLM 时,词元处理时延低于4100ms21第四代英特尔 至强 可扩展处理器1.2 如欲了解更多详情,请访问:https:/ Express Link(CXL)1.1 8 通道 DD
51、R5传输速率高达 4,800 MT/s(1DPC)传输速率高达 4,400 MT/s(2DPC)每路 16 个 DIMM全新 RAS 功能(增强型ECC、ECS)高带宽内存(HBM)(64GB/每路)经优化的电源模式80 条 PCIe 5.0 通道支持 1 至 8 路配置英特尔 UPI 2.0(高达 16 GT/s)更高的单核性能每路多达 60 个内核英特尔 高级矩阵扩展(英特尔 AMX)英特尔 数据保护与压缩加速技术(英特尔 QAT)创新、设计和交付均坚持工作负载优先CPU 内置多种加速器更出色的性能与能效,更好满足客户所需更全面的机密计算产品组合英特尔 存内分析加速器(英特尔 IAA)英特
52、尔 安全引擎英特尔 SGX英特尔 TDX英特尔 数据流加速器(英特尔 DSA)面向 vRAN 的英特尔 高级矢量扩展英特尔 动态负载均衡器(英特尔 DLB)英特尔 至强 CPU Max 系列(配备 HBM)高达1.53 倍平均性能增益1(与上一代产品比较)高达10 倍PyTorch 实时推理和训练性能提升2启动英特尔 AMX(BF16)时与上一代产品(FP32)的比较结果22第四代英特尔 至强 可扩展处理器内置七大加速器英特尔 动态负载均衡器(英特尔 DLB)提升与网络处理相关的性能英特尔 至强 CPU Max 系列集成高内存带宽,为科学计算与 AI 工作负载大幅提升数据吞吐量英特尔 存内分析
53、加速器(英特尔 IAA)优化内存占用和查询吞吐量英特尔 高级矩阵扩展(英特尔 AMX)加速深度学习推理与训练英特尔 数据保护与压缩加速技术(英特尔 QAT)加速加密与压缩操作英特尔 数据流加速器(英特尔 DSA)优化数据流的传输和转换英特尔 安全技术(英特尔 Security)帮助保护数据机密性与代码完整性23英特尔 至强 可扩展处理器内置 AI 加速能力的演进内置 AI 加速能力的数据中心级 CPU第三代至强 可扩展处理器(Ice Lake)英特尔 DL Boost(AVX-512_VNNI)和英特尔 Software Guard Extensions(英特尔 SGX),支持领先 AI 应用
54、,如联邦学习第四代至强 可扩展处理器(Sapphire Rapids)第五代至强 可扩展处理器(Emerald Rapids)英特尔 Advanced Matrix Extensions(AMX)进一步 扩展了至强 可扩展处理器上的内置 AI 加速功能第二代至强 可扩展处理器(Cascade Lake)英特尔 DL Boost(AVX-512_VNNI)全新内存存储层次结构第三代至强 可扩展处理器 (Cooper Lake)英特尔 DL Boost(AVX-512_BF16)VPMADDUBSWVPMADDWDVPADDD VPDPBUSD(8-bit new instruction)英特尔
55、AVX-512第一代至强 可扩展处理器更高效的推理加速第二代和第三代至强 可扩展处理器将三条指令合而为一,可最大限度地 利用计算资源,提高缓存利用率 相比英特尔 AVX-512,英特尔 AMX 可提供超过 8x operations/clock/core英特尔 DL Boost(VNNI)领先性能1.74x推理表现速度提升1(BERT,第三代 vs 第二代)2048IntegerHighter is BetterOps/Cycle per core 100%utilizationFloating PointAVX-512(2xFMA)FP32AMX(TMUL)BF16AVX-512(2xFMA
56、)INT8AMX(TMUL)INT810242566416XFaster8XFasterIntel AMXStore bigger chunks of DATA in each coreTiles2D Register FilesTMULTile Matrix MultiplyINSTRUCTIONS that compute larger matrices in a single operation1 如欲了解更多详情,请访问:https:/ 高级矩阵扩展(英特尔 AMX)每核可存储更大的数据块可在单次运算中计算更大矩阵的指令TILE2D 寄存器文件平铺矩阵乘法(TMUL)2 9 01 3
57、52 4 78 1 5英特尔 AMX 提供广泛的软硬件优化,提升 AI 加速能力 同时支持 INT8 和 BF16 数据类型 图像识别、推荐系统、机器/语言翻译、自然语言处理(NLP)、媒体处理和分发 市场上的主流框架、工具套件和库(PyTorch、Ten-sorFlow),英特尔 oneAPI 深度神经网络库(英特尔 oneDNN)为 AI/深度学习推理和训练工作负载带来显著性能提升 通过硬件加速使常见应用更快交付功能用例软件支持商业价值高达 10 倍与第三代至强 可扩展处理器 相比,第五代至强 可扩展 处理器可使推理工作负载 性能提升1高达 1.23-1.35倍实时推理性能提升2高达 1.
58、2-1.38 倍实时推理每瓦性能提升3与上一代产品相比,内置英特尔 AMX 的第五代至强 可扩展处理器 1.2.3 有关性能和基准测试结果的更完整信息,请访问:https:/ 深度学习加速英特尔 AVX-512(Instruction 1)VPMADDUBSW英特尔 AVX-512(VNNI)VPDPBUSD(8-Bit New Instruction)英特尔 AVX-512(Instruction 3)VPADDD英特尔 AVX-512(Instruction 2)VPMADDWDCycle 1Cycle 1Cycle 2Cycle 3CompleteComplete方案验证与未来展望为验证
59、集成英特尔 Neural Compressor 后的 TACO Kit 在不同AI 模型推理工作负载中的性能加速情况,英特尔与腾讯云一起选取了多种被广泛应用的自然语言处理深度学习模型进行了验证测试。测试中,各个深度学习模型在通过 TACO Kit 进行优化后,进而使用英特尔 Neural Compressor 进行了 INT8 量化以及性能调优。推理性能加速结果如图五所示2,在保持精度水平基本不变的情况下,各个深度学习模型的推理性能均获得了显著的提升,提升幅度从 55%到 139%不等。在其中的 bert-base-uncased-mrpc 场景中,推理性能达到了基准值的 2.39 倍,获得了
60、令人满意的成果。白皮书|集成英特尔 Neural Compressor,腾讯云 TACO Kit 为 AI 应用带来高效异构加速服务矢量神经网络指令(VNNI)扩展英特尔 AVX-512 以加速 CPU 平台上的 AI/深度学习推理Input8-bitInput8-bitInput8-bitInput8-bitAccumulator Output32-bitConstant16-bitOutput16-bitConstant16-bitAccumulator Output32-bitAccumulator Output32-bitAccumulator Input32-bit图四 英特尔 DL
61、 Boost(AVX-512_VNNI)技术英特尔AVX-512英特尔VNNI1 如欲了解更多详情,请访问:https:/ 借助增强型英特尔 深度学习加速技术实现(基于面向单路和双路的第三代英特尔 至强 可扩展处理器,相较于上一代)26英特尔 深度学习加速依据表示数字的比特位数,FP32 可提供更高的精度bfloat16 支持基于相同指数域的相同范围的数字,但精度略低许多 AI 功能并不需要 FP32 提供的精度水平从 FP32 转换到 bfloat16 比转换到 FP16 更简单与 FP32 相比,使用 bfloat16 可实现每周期两倍的吞吐量示例:Number:0.56580972671
62、508789062596As FP32:0.56580972671508789062532 Bits16 BitsFP32bfloat16FP16BF16 到 FP32 的简单转换Bfloat16 具有相同数量的指数位,因此可以表示和 FP32 一样大的数字,但由于其用于存储实际数字的位数较少,因此精度略低。FP16 可以提供比 bfloat16 更高的精度,但用于表示指数位的比特位较少,不能支持相同的数字范围。符号 表示正数或负数分数/尾数 用于存储“数字”的比特位数 指数 表示小数点在分数/尾数中的位置00000001110010010000111000100111110111000011
63、11100001101100011100脑浮点数(bfloat16)27英特尔 Trust Domain Extensions(英特尔 TDX)VMM英特尔 至强(TDX)应用应用应用客户操作系统TD(信任域)信任域虚拟机级 TEE为传统应用提供实现出色的安全性、合规性与控制的直接途径建立数据主权和控制将数据和知识产权隔离在保密的虚拟机中,并将受保护数据的访问权限限制在获得明确许可的软件或管理员范围内;保护数据 和知识产权通过在 VM 内的 TEE 对机密数据进行硬件增强隔离,帮助减少攻击面并降低外部实体破坏、篡改或窃取数据的风险;简化监管合规英特尔 TDX、英特尔 SGX 等可以帮助受严格的
64、数据隐私法规约束的组织通过加密和安全区来满足合规标准;在可信环境中 部署 AI英特尔 TDX 凭借强大的隔离、完整性和保密功能,帮助保护应用程序、数据和 AI 模型免受未经授权的访问。简化将现有应用程序移植和迁移到机密计算环境的过程,在大多数情况下,无需更改应用程序代码,即可激活虚拟机内由英特尔 TDX 支持的可信域。如欲了解更多详情,请访问:https:/ 2s SiteParty 4s SiteParty 1s SiteParty 3s Site英特尔 Software Guard Extensions(英特尔 SGX)采用英特尔 SGX 的机密人工智能应用,保护使用中的数据和代码隔离保护
65、敏感数据和代码,不受所有其他软件、云租户或管理员的影响,即使是恶意的访问鉴证加密验证 TEE 是否真实、配置正确且仅运行预期的软件负载基于硬件的可信执行环境(Trusted Execution Environment)SGX123加密敏感数据加密或匿名的结果模型模型(未加密的数据处理)ModelModelModelGovernor&Master ModelModel未加密的 数据和结果已验证的应用 或模型代码集中式多方示例:多家医院汇集受监管的患者数据,以进行诊断模型训练联邦学习示例:银行合作进行反洗钱,但数据太大且敏感,无法移动受监管的数据示例:智慧城市摄像头捕获的受严格数据处理法规约束的个
66、人身份信息(PII)符合规定加密的数据存储人工智能应用场景29面向智能视觉云的 GPU 解决方案,支持基于标准的开放式软件堆栈,针对密度和质量进行了优化,具有关键的服务器功能,可实现高可靠性、可用性和可扩展性,有助于减少数据中心使用不同解决方案并管理异构或专有环境的需求,支持的工作负载包括:AI 视觉推理媒体处理和交付云游戏虚拟桌面基础设施AV1 编解码ECC内存高达256TOPS(INT8)架构基于硬件的 SR-IOV英特尔 Xe 矩阵扩展多达4 个 Xe 媒体引擎英特尔 数据中心 GPU Flex 系列如欲了解更多详情,请访问:https:/ PCIe16光线追踪单元32光线追踪单元全高
67、PCIe75W16 Xe内核32 Xe内核150WFlex140Flex170基于英特尔 架构的 AI 软件工具组合工程数据优化&部署模型创建注:堆栈中每一层的组件均基于预期的 AI 使用模型,有针对性地对其他层的目标组件进行优化,但并非每个组件都被最右列的解决方案所使用。本列表包括面向英特尔硬件进行优化的主流开源框架。大规模数据分析机器学习&深度学习框架,优化和部署工具适用于 CPU、GPU 和其他加速器的开放式、多架构编程模型英特尔 oneAPI Deep Neural Network Library英特尔 oneAPI Math Kernel Library英特尔 oneAPI Coll
68、ective Communications Library英特尔 oneAPI Data Analytics LibrarySigOptAutoMLN Ne eu ur ra all C Co ommp pr re es ss so or rWebAssemblyWebGPUWebNNDirectML云&企业终端&工作站边缘端到端加速数据科学和 AI 应用英特尔 Developer Cloud and 英特尔 Developer Catalog 体验最新的英特尔工具和硬件,使用经优化的 AI 模型全栈式机器学习操作系统英特尔 Geti数据标注、模型训练及优化的平台英特尔的优化和微调指南,经优化
69、的推理模型和模型服务3031英特尔 oneAPI AI Analytics 工具套件深度学习示例及端到端工作负载点击或通过如下链接获取工具包面向英特尔 架构优化的 TensorFlowIntel InstallerDockerApt,YumCondaIntel DevCloud面向英特尔 架构优化的 ModinXGBoostScikit-learnDaal-4PyNumPySciPyPandasHEAVY.AI Backend(formerly OmniSci)面向英特尔 架构优化的 PyTorch英特尔 低精度优化工具(英特尔 LPOT)面向英特尔 架构优化的 Model Zoo数据分析&机
70、器学习利用面向英特尔 架构优化的库加速端到端人工智能和数据分析管道显著优势 利用面向英特尔 架构优化的深度学习框架和工具提升训练和推理性能 使用计算密集型 Python 包为数据分析和机器学习工作流提供落地加速加速数据库 硬件支持因个别工具而异。架构支持将随着时间的推移而扩大。CPUGPU支持的硬件架构面向英特尔 架构优化的 Python性能加速提高生产力简化端到端 工作流程加快开发了解更多: 工具套件-由 oneAPI 提供支持高性能、深度学习推理部署简化开发、易于使用一次编写、随处部署1.BUILD2.OPTIMIZE3.DEPLOYOpen Model Zoo100+open sourc
71、ed and optimized pre-trained models;80+supported public modelsTrained ModelModel OptimizerConverts and optimizes trained model using a supported frameworkInference EngineCommon API that abstracts low-level programming for each hardwareIntermediateRepresentation(.xml,.bin)Read,Load,InferIR DataPost-T
72、raining Optimization ToolDeep Learning StreamerCode Samples&Demos(e.g.Benchmark app,Accuracy Checker,Model Downloader)OpenCVCPU PluginGPU PluginGNA PluginMyriad Plugin For intel NCS2&NCSHDDL PluginFGPA PluginOpenCLTMDeep Learning WorkbenchDeployment Manager旨在使用高性能人工智能和计算机视觉推理实现更加快速和准确的实际结果,部署在从边缘到云的
73、、基于英特尔 XPU 架构(CPU、GPU、FPGA、VPU)的生产环境中了解更多: 33BigDL*:统一的大数据分析和 AI 平台计算环境模型和算法(内置模型和算法)机器学习工作流(自动构建端到端管道)端到端流水线(将 AI 模型无缝扩展到分布式大数据平台)推荐LaptopDL Frameworks(TF/PyTorch/BigDL/OpenVINOTM/)Distributed Analytics (Spark/Flink/Ray/)Python Libraries (Numpy/Pandas/sklearn/)K8s ClusterHadoop ClusterCloudAutoMLDi
74、stributed TensorFlow&PyTorch on SparkSpark Dataframes&ML Pipelines for DLRayOnSparkInferenceModelAutomatic Cluster Serving时间序列计算机视觉自然语言处理由英特尔 oneAPI 工具套件提供支持了解更多:https:/ BigDL 2.0 已包含 BigDL 和 Analytics Zoo。34xFaster Transformer(xFT)为大语言模型推理加速代码以 Apache 许可证开源在https:/ Max其它工具EthernetxFasterTransformer
75、用户应用程序模型训练模型转换(model converter)推理引擎权重和配置 释放至强 和至强 Max 系列处理器的 DRAM 和 HBM 带宽潜能更高性能 支持跨 Socket、跨节点分布式推理 支持高达 70B LLM 模型(Qwen-72B)更好扩展性 内存容量需求低 通过精细的内存规划进行优化,以支持更大模型更好 TCO 支持多种 LLM 模型,如 LlaMA 1/2,ChatGLM 1/2/3,Baichuan,OPT,Qwen 支持不同规模 LLM 模型,如6B,7B,13B,30B 等 支持 BF16、FP16、INT8、W8A8、INT4 等 兼容 Faster Trans
76、former 模型格式 兼容 Hugging Face 与 PyTorch更强兼容性大数据分析+人工智能端到端流水线大数据流水线从笔记本电脑无缝扩展到分布式大数据平台使用样本数据在笔记本电脑上制作原型 轻松构建将 AI 模型与大数据融合对接的端到端流水线原型 从笔记本电脑到分布式集群的“零”代码更改 可在生产环境中的 Hadoop/K8s 集群上无缝部署 实现从机器学习到大数据应用的流程自动化在承载历史数据的集群上进行试验 使用分布式数据流水线进行生产部署 35英特尔 AI 实战视频课程 至强 AI 实战课 CCF 联合专场 英特尔 至强 RAS 为 AI 服务器护航 英特尔 至强 CPU 让
77、 AI 部署无处不在 大模型时代的云服务安全利器 从 OCR 起步推进企业 AI 应用落地扫码观看课程3637英特尔中国 AI 实战资源库英特尔中国制造与能源行业AI 实战手册英特尔中国物流与交通行业AI 实战手册英特尔中国金融行业AI 实战手册英特尔中国 AI 应用案例集锦英特尔中国医疗健康行业AI 实战手册英特尔中国互联网行业AI 加速实践手册英特尔中国教育行业AI 实战手册英特尔中国最“in”大模型专栏1英特尔中国AI 应用案例集锦#全栈算力 加速行业 AI 落地3738法律声明英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。在特定系统的特殊测试中测
78、试组件性能。硬件、软件或配置的差异将影响实际性能。当您考虑采购时,请查阅其他信息来源评估性能。关于性能和基准测试程序结果的更多信息,请访问 。英特尔编译器针对英特尔微处理器的优化程度可能与针对非英特尔微处理器的优化程度不同。这些优化包括 SSE2、SSE3 和 SSSE3 指令集和其他优化。对于非英特尔微处理器上的任何优化是否存在、其功能或效力,英特尔不做任何保证。本产品中取决于微处理器的优化是针对英特尔微处理器。不具体针对英特尔微架构的特定优化为英特尔微处理器保留。请参考适用的产品用户与参考指南,获取有关本声明中具体指令集的更多信息。声明版本:#20110804没有任何产品或组件是绝对安全的。描述的成本降低情景均旨在在特定情况和配置中举例说明特定英特尔产品如何影响未来成本并提供成本节约。情况均不同。英特尔不保证任何成本或成本降低。此处提供的所有信息可在不通知的情况下随时发生变更。关于英特尔最新的产品规格和路线图,请联系您的英特尔代表。39加速 AI 实践,请访问:英特尔数据中心微信公众号英特尔商用会员中心小程序英特尔官网英特尔惊喜福利官企业微信号英特尔、英特尔标识以及其他英特尔商标是英特尔公司或其子公司在美国和/或其他国家的商标。英特尔公司版权所有