《A4--刘靖毅--浅谈 MLSecOps 中大模型的软件供应链管理.pdf》由会员分享,可在线阅读,更多相关《A4--刘靖毅--浅谈 MLSecOps 中大模型的软件供应链管理.pdf(25页珍藏版)》请在三个皮匠报告上搜索。
1、浅谈浅谈 MLSecOps 中大模型的软件供应链管理中大模型的软件供应链管理刘靖毅刘靖毅JFrog 解决方案架构师GOPS 大会金牌讲师多年一线国内中大型企业 DevOps 实施建设经验,专注于企业 DevOps 转型建设。在 JFrog 中国 负责客户 DevOps 建设咨询整体解决方案,最佳实践推广以及实施等工作。认证Exin DevOps MasterKubernetes Certification CKAJFrog Artifactory Certified DevOps Engineer认识认识 MLOpsCodeBuildDeploy传统开发传统开发Software Enginee
2、r开发 调试应用代码DevOps EngineerCICD 管理管理Operations Engineer部署、监控、运维部署、监控、运维DataModelDeployData Scientist定义、标签、收集训定义、标签、收集训练数据练数据Research Engineer开发模型算法、训练和开发模型算法、训练和分析模型分析模型ML Engineer实现、部署、监控和运维实现、部署、监控和运维 ML 模型数据模型数据机器学习机器学习 ML规规则则数数据据答答案案数数据据答答案案规规则则ML程序开发MLOps 的软件供应链的软件供应链ML 的软件供应链:选择机器学习算法(如支持向量机或决策树
3、)向算法提供数据集(“训练”模型),这就产生了一个可以查询的“预训练”模型将预训练的模型部署到模型注册中心将预训练的模型部署到生产环境中,可以通过将其嵌入到应用程序中将其部署到“模型应用”或“模型即服务”MLOps管道类似于传统的DevOps管道,大模型和数据集是大模型和数据集是 MLOps 交互的核心交互的核心。大模型数量爆发增长大模型数量爆发增长爆发增长给我们带来了新的问题和挑战爆发增长给我们带来了新的问题和挑战永远不要对可能来自不可信来源或可能已被篡改的数据进行解pickle如果需要确保数据未被篡改,请考虑使用 hmac 对数据进行签名注入恶意代码在模型加载时执行注入恶意代码在模型加载时
4、执行用户只是想加载一个模型,却得到了任意的代码执行。baller13 有害有害 payload:反向:反向Shell到恶意主机到恶意主机越来越多模型在使用之前需要进行序列化的操作越来越多模型在使用之前需要进行序列化的操作模型就是代码目前使用的大多数ML模型格式都支持加载时自动执行代码,这意味着只要加载一个不受信任的模型,任意代码就可以在您的机器上运行。这些“固有”漏洞中有哪些是我们可能不知道的?哪些ML操作不应该与不受信任的数据一起使用?PyTorch 模型和 Tensorflow Keras 模型(以H5或SavedModel格式)构成执行恶意代码的最高潜在风险基于基于AI的幻觉攻击的幻觉攻
5、击一个用户向中毒的推理服务器查询“什么是计算机视觉最好的PyPI包”,可能会得到一个恶意的结果,如“尝试MyRemoteAccessTool v99.9”。IP泄漏被劫持的容器将敏感模型上传到攻击者的云服务器上,导致知识产权损失。MLOps 平台在未来几年将出现大量安全问题平台在未来几年将出现大量安全问题两个原因开源 MLOps 平台都很新(最早的平台不到5年)人工智能专家通常不是安全专家攻击者如何通过软件供应链将这些漏洞链接在一起攻击者如何通过软件供应链将这些漏洞链接在一起为什么需要私有化管理企业为什么需要私有化管理企业 ML 大模型大模型Private GithubPrivate Dock
6、erhubPrivate Huggingface Hub目前模型管理的现状,大多使用 Git/FTP/S3 传统存储方式:缺乏模型的版本管理(大量预训练模型需要工程化的版本管理);模型 size 10G 500G 不等的超大文件,上传、下载、移动费时费力;模型安全、许可证合规性缺失。ML 涉及的所有语言技术栈统一管理涉及的所有语言技术栈统一管理使用Artifactory缓存和管理来自PyPI的包目前大部分的 MLOps 平台采用 Docker/OCI 部署模型支持 Hugging Face 的私有化使用使用Artifactory来缓存和管理Helm Charts像管理包和构建版本一样管理和保护