《英特尔:最“in”大模型专栏(2023)(56页).pdf》由会员分享,可在线阅读,更多相关《英特尔:最“in”大模型专栏(2023)(56页).pdf(56页珍藏版)》请在三个皮匠报告上搜索。
1、112目录CONTENTS1采用 Habana Gaudi 2,加速大语言模型 BLOOMZ 推理如何在英特尔 平台上实现高效的大语言模型训练后量化用基于英特尔 SGX 的可信执行环境有效应对大语言模型隐私和安全挑战只改一行代码,在第四代至强 可扩展平台上高效微调优化 ChatGLM-6B创建 OpenVINO Stateful 模型与 Runtime 流水线,赋能 ChatGLMBigDL-LLM:在英特尔 平台上加速大语言模型的便捷新利器GAUDI2 AI 夹层卡第四代英特尔 至强 可扩展处理器借助英特尔 高级矩阵扩展(英特尔 AMX)加速人工智能(AI)工作负载英特尔 至强 CPU Ma
2、x 系列英特尔 安全引擎助力创新加速,增强数据保护27111623303436414750本文作者是 Hugging Face 的机器学习工程师 Rgis Pierrard,并于 2023 年 3 月 28 日发布于 Hugging Face Blogi。感谢 Rgis Pierrard 授权我们翻译和转发本文。本文介绍了如何在 Habana Gaudi2ii 上轻松部署参数量多达数十亿的语言模型,披露了 Hugging Face 针对 BLOOMZ 在 Gaudi2 上的性能评估结果。随着大语言模型(Large Language Model,LLM)的规模越来越大,在生产环境部署和使用这些模
3、型来进行推理也变得越来越具挑战性。为应对这些挑战,无论硬件还是软件,都经历了多次创新。下面,我们将一同探索如何有效克服这些挑战。B BL LO OO OMMZ Z 简介 BLOOMiii 是一个拥有 1760 亿参数的自回归模型,训练后可用于生成文本序列。它可以处理 46 种语言和 13 种编程语言。作为 BigScienceiv 计划中的一个开放科学项目,BLOOM 的设计和训练吸引了世界各地众多研究人员和工程师的共同参与。BLOOMZv 是最近发布的、与 BLOOM 架构完全相同的模型,它是 BLOOM 基于多个任务的调优版本,具有更出色的泛化和零样本vi 能力。无论是训练vii 还是推理
4、viii 场景,这类大模型都对内存和速度提出了新挑战。即便使用 16 位精度,一个实例所需的内存仍高达 352 GB!目前具有如此大内存的设备可能很难找到,但像 Habana Gaudi2 这样的先进硬件却足以让 BLOOM 和 BLOOMZ 模型以更低的时延执行推理。H Ha ab ba an na a G Ga au ud di i 2 2 Gaudi2 是 Habana Labs 设计的第二代 AI 硬件加速器。单个服务器包含 8 张加速卡(称为 Habana 处理单元,即 Habana Processing Unit,简称为 HPU),每张卡内存高达 96 GB,可提供足够的空间来容纳
5、大模型。然而,如果计算速度很慢,那么为大模型提供大内存的意义也不大。所幸,Gaudi2 的计算速度也非常出色。Gaudi2 与 GPU 的主要区别在于它的架构能让加速器并行执行通用矩阵乘法(GeMM)和其他运算,从而加快深度学习工作流。这些特性使 Gaudi2 成为 LLM 训练和推理的理想选择。Habana 的 SDK SynapseAI 支持使用 PyTorch 和 DeepSpeed 来加速 LLM 训练和推理。SynapseAI 图形编译器ix可优化图形中所累积的操作的执行(如算子融合、数据布局管理、并行化、流水线、内存管理、图优化等)。此外,SynapseAI 最近引入了对 HPU
6、Graphx 和 DeepSpeed-inferencexi 的支持,这两者都非常适合时延敏感型应用(参见下文基准测试)。以上所有功能均已集成至 Optimum Habanaxii 库,因此在 Gaudi 上部署模型非常简单。访问此链接https:/huggingface.co/docs/optimum/habana/quickstart,查看快速入门页面。如欲试用 Gaudi2,请登录英特尔 Developer Cloudxiii 并按照本指南xiv 操作。2众多内置加速器,让性能更进一步 在企业和机构寻求扩大规模、降低成本和提供新服务的过程中,通过技术来实现商业价值的重要性日益凸显。面对新