1、隐私计算在大数据AI领域的应用实践龚奇源 资深架构师|01隐私计算隐私计算02大数据大数据AI+隐私计算隐私计算03应用实践应用实践04总结和展望总结和展望目录目录CONTENT|隐私计算01|隐私计算背景|个人的需求个人的需求隐私和安全的意识提高隐私和安全合规要求隐私和安全合规要求 国外:欧盟GDPR,美国CCPA等 国内:网络安全法,数据安全法,个人信息保护法等隐私和安全的要求和管理隐私和安全的要求和管理宽松宽松严格严格隐私计算背景|https:/ 易用性提高 方向逐步细化 存储、处理更多数据 分析(查询)更多数据 实时分析 建模和预测(机器学习、深度学习)AI 无处不在 从实验室走向生产
2、环境 应用于大规模、分布式大数据“Machine Learning Yearning”,Andrew Ng,2016大数据AI背景|清洗/准备部署/可视化分析/建模获取/存储数据管理数据管理数据分析数据分析数据科学及人工智能数据科学及人工智能集成的数据流水线大数据AI+隐私计算|常见痛点:能否兼容现有的应用 现有的应用(数据分析和AI)能否直接迁移 对其他应用和设施是否有冲击能否处理大规模数据 能否支持大规模数据 计算效率是否足够好 能否解决数据孤岛问题|BigDL PPML:可信的大数据AIHW(SGX/TDX)Protected Secure Big Data AI,even on Unt
3、rusted CloudStandard,distributed AI applications on encrypted dataHardware(Intel SGX/TDX)protected computation(and memory)End-to-end security enabled for the entire workflowProvision and attestation of“trusted cluster environment”on K8s(of SGX nodes)Secrete key management through KMS for distributed
4、 data decryption/encryptionSecure distributed compute and communication(via SGX,encryption,TLS,etc.)K8s(on-prem or cloud)Worker Node.Distributed StorageDriver NodeData Lake/Warehouse Trusted Cluster Environment for Big Data AIWorker NodeWorker NodePPML.大数据AI+隐私计算|Apache Spark中的安全网络加密(TLS/AES)存储加密(AE
5、S)计算(明文)SparkHardware(CPU,Memory,GPU etc)AppOS(Operating System)HypervisorIf OS/VM/Hypervisor/BIOS is hacked by adversaries,then they can dump sensitive data(input,temp,output etc)from Spark.大数据AI+隐私计算|AppHardware(CPU,Memory,GPU etc)AppOS(Operating System)HypervisorINTEL SGXSGX enclaveX英特尔软件防护扩展英特尔软
6、件防护扩展SGX硬件级的可信执行环境(TEE)相对小的攻击面性能影响小足够大的飞地(最大1TB)已经被广泛测试、研究和部署Secure Spark with SGXRunning in SGXHypervisorOSSparkAppCodeWithout SGXSparkAppCodeHypervisorOSSGX SDK大数据AI+隐私计算|攻击者可以获取到应用和敏感数据攻击者无法获取明文数据保护明文和敏感模块缺点:缺点:开发代价大开发代价大代码无法复用代码无法复用https:/ SGXC+/Python/Java/R/OneDNNAppLibOSSGX SDKsgx-lklTensorFl