《03徐基明-HyperGPU.pdf》由会员分享,可在线阅读,更多相关《03徐基明-HyperGPU.pdf(27页珍藏版)》请在三个皮匠报告上搜索。
1、演讲嘉宾:徐基明HyperGPUHyperGPU机密计算释放通用机密计算释放通用GPUGPU算力算力构筑大模型密态算力底座构筑大模型密态算力底座目录目录0 1背景介绍背景介绍0 2HyperGPUHyperGPU 设计设计0 3HyperGPUHyperGPU 性能性能0 4展望与总结展望与总结0 1 背景介绍背景介绍背景介绍“市场空间方面,2021年我国数据要素市场规模达到815亿元,2022年市场规模接近千亿元,并且在“十四五”期间有望保持 25%的复合增速。预计2025年我国数据要素市场规模为1749亿元”国家工业信息安全发展研究中心中国数据要素市场发展报告 数据成为生产要素数据使用存在
2、安全挑战传统数据中心,信任建立在运维体系之上,运维者拥有高权限,可任意访问平台用户数据2024年7月发生的CrowdStrike事件:内存越界访问引发的全球范围宕机事件,影响850万台Windows设备,预计损失$100亿2017年黑客利用Triton恶意工具攻击了沙特一家炼油厂,致使其紧急关闭,分析人员在其中发现了从内存中提取用户口令或其他认证凭证的恶意程序背景介绍机密计算呼之欲出TEE(TrustedTEE(Trusted ExecutionExecution Environment)Environment)可实现数据可实现数据“可用而不可见可用而不可见”数据加密(密不透风)REE 中的复
3、杂软件被排除在外,代码量小,漏洞更少在软硬件的加持下,REE 无法读写 TEE 应用的敏感数据TEE 硬件通常对内存进行加密,抵御硬件攻击可验证(清者自清)TEE 硬件可作为信任根,提供远程证明能力性能好(行云流水)TEE 内部的计算都是以明文的方式进行,性能接近数据未保护的场景大模型推理过程中隐私数据保护GPU云端服务器管理员GPU-TEE终端用户大模型服务提供商大模型权重文件语料库 加密上传 加密上传 解密,明文推理 返回推理结果大模型服务需要借助强大的云端算力需要保护的隐私数据:模型提供商:大模型文件、语料库 终端用户:提示词、推理结果背景介绍GPU-TEE 现状缺乏通用性与普惠性NVI
4、DIA Hopper/Blackwell 架构是目前唯一成熟商用方案依赖特定硬件,存在供应链风险:Intel TDX/AMD SEV Trusted I/O+NV Blackwell 方案国内厂商 GPU TEE 方案处于起步阶段,生态支持有限大量的存量GPU设备无法支持TEE功能背景介绍0 2 HyperGPUHyperGPU 设计设计设计目标通用性:不依赖于较新的硬件特性,让众多 GPU 设备都具备 TEE 能力易用性:不依赖于用户态的修改,只对系统层的软件进行改动普惠性:以较低的成本,将普通算力升级成密态算力可解耦:不与任何的 GPU 厂商绑定,支持通用的平台;信任根可解耦HyperGP
5、U 设计通用的 TEE HyperEnclave,同时提供:Enclave、CVM 以及 GPU-TEE 三种抽象签发证书设计哲学:Hypervisor 运行在硬件虚拟化提供的最高特权级,仅仅负责安全资源的管理原有的 OS 提供原生服务,并请求 Hypervisor 操作安全资源,攻击面大幅减小主要特点:普惠通用:仅仅依赖硬件虚拟化,让所有的 CPU 都具备 TEE 能力,支持海光、兆芯、Intel、AMD 等国内外主流 CPU 平台自主可控:信任根与 CPU 解耦,托管在国家权威机构简单易用:支持 Occlum、Linux 等生态,普通应用无需特殊改造即可升级机密应用通用 CPUHost V
6、M(L1L1)EnclaveConfidential VM(L2)AppAppApp操作系统AppAppEnclaveAppAppAppTEE OSHyperEnclaveHyperEnclave(L0L0)运行在最高特权级运行在最高特权级,提供提供 TEETEE 的能力的能力权威CATPMTPM虚拟化内存加密通用 GPUGPU-TEE密态大模型基于通用的硬件能力国产X86国产 ARMIntelAMDARMNVIDIADCUHyperGPU 设计l 可抵御高特权级软件的攻击:可抵御高特权级软件的攻击:攻击方式攻击方式系统管理员越权系统管理员越权攻击者与恶意的攻击者与恶意的 CVMCVM 合谋合