1、HyperGPU:基于通用硬件的大模型隐私数据保护蚂蚁集团 机密计算团队贾越凯2025/03/29Outline01.背景介绍02.HyperGPU 设计03.性能数据04.总结与展望201.背景介绍数据成为生产要素https:/ 25%的复合增速。预计2025年我国数据要素市场规模为1749亿元”国家工业信息安全发展研究中心中国数据要素市场发展报告平均每次数据泄露造成$4.35M的损失0283%的被调查机构出现过至少一次数据泄漏0179%的关键业务机构没有部署零信任设施05平均花费277天才能识别并修复数据泄露问题04云上业务占比45%03数据泄露的代价大!数据泄露的代价大!01.背景介绍大
2、模型推理过程中的隐私数据保护4大模型服务需要大模型服务需要借助强大的云端借助强大的云端算算力力 需要保护的隐私数据:模型提供商:大模型文件、语料库 终端用户:提示词、推理结果“机密计算是目前最为现实的一种数据使用安全技术,本质上是一种密态计算技术”TEE(可信执行环境)可实现“可用而不可见”硬件平台TEE硬件REETEERich Execution EnvironmentTrusted Execution EnvironmentTEE应用TEE OS/运行时REE应用REE OS隔离:遗世独立REE中的复杂软件被排除在TEE之外,供给面更小TEE的安全性依赖于自身,与REE无关加密:密不透风T
3、EE硬件保证TEE与REE强隔离TEE硬件通常都对内存加密远程证明:清者自清TEE硬件可作为信任根,提供远程证明501.背景介绍机密计算是什么01.背景介绍机密计算技术演进ARM TrustZone-2004移动端TEEiPhone5s-2013TEE商用Intel SGX-2015 服务器端 TEEAMD SEV-2016服务器端 VM TEEARM CCA-2021服务器端 VM TEEAnt HyperEnclaveAnt HyperEnclave-20222022服务器端软服务器端软TEETEEIntel TDX-2023服务器端 VM TEENvidia Hopper-2023服务器
4、端 GPU TEEAnt HyperGPUAnt HyperGPU-20242024服务器端软服务器端软 GPU TEEGPU TEE总体趋势:易用性增强,逐渐向虚拟机/云/服务器/异构发展601.背景介绍面向 GPU 的机密计算方案现状7https:/ H100cc VM TEE Intel TDX/AMD SEV 无法保护 CPU 与 GPU 间的共享内存 GPU TEE NVIDIA Hopper/Blackwell 架构是目前唯一成熟商用方案 依赖特定硬件,存在供应链风险 国内厂商 GPU TEE 方案处于起步阶段,生态支持有限01.背景介绍HyperGPU 设计目标8通用性通用性:基
5、于通用硬件,让众多存量设备具备安全能力。易用性易用性:不修改应用程序,只对系统层软件栈进行少量改动。普惠性普惠性:以较低的成本,将普通算力升级成密态算力。可解耦可解耦:不绑定任何一家硬件平台(NVIDIA,Intel,AMD)。HyperEnclave(L0)通 CPU通 GPU.虚拟化内存加密海光兆芯IntelAMDARMNVIDIA海光DCUTPMCVM 操作系统AppAppCVM-1(L2)CVM 操作系统AppAppCVM-N(L2)签发证书权威 CA基于通硬件的能主操作系统KVMAppAppHost VM(L1)Guest 模式Host 模式通硬件02.HyperGPU 设计9通用
6、TEE 架构 HyperEnclave 主要特点:普惠通用:让所有 CPU 都能具备 TEE 能力,已支持海光、兆芯、Intel、AMD 等国内外主流 CPU 平台 安全可证:第一个被形式化验证的工业级 Rust Hypervisor 自主可控:信任根与 CPU 解耦,托管在国家权威机构 生态丰富:支持 Intel SGX SDK 和 Occlum 等已有生态 开源开放:核心代码已经开源,携手社区(CPU,OS,整机厂商)共建。设计哲学:微内核架构 极简内核仅管理安全资源,创建可信执行环境(TEE)被降权OS提供原生服务,攻击面大幅减小。微内核架构信任根与 CPU 解耦国家 CA 授信02.H