1、基于 eBPF 的大模型安全防护实践第三届 eBPF开发者大会w w w.e b p f t r a v e l.c o m中 国 西 安田宇琛第 三 届 e B P F 开 发 者 大 会背景介绍:大模型安全数据安全数据泄露数据隐私数据投毒模型安全对抗攻击模型窃取指令攻击系统安全软件漏洞访问控制恶意工具内容安全算法偏见信息合规虚假信息大模型面临的诸多安全威胁中,数据安全问题尤为突出数据泄露:模型对话暴露真实个人信息数据投毒:受污染的训练数据诱使模型错误决策数据隐私:包含个人信息的训练数据被收集第 三 届 e B P F 开 发 者 大 会背景介绍:数据安全数据全生命周期安全体系数据传输传输链
2、路加密网络边界安全数据使用数据脱敏隐私计算行为审计数据销毁数据安全删除介质销毁处理数据采集数据合规评估数据分类分级数据存储数据存储加密数据备份与恢复数据访问控制数据流通数据脱敏数据影响评估第 三 届 e B P F 开 发 者 大 会背景介绍:大模型数据安全防护数据在使用-流通阶段的防护最具挑战性“特权账号的窃取和非法使用是数据泄露的关键因素”Verizon DBIR,2023对于大模型业务场景,服务器上有如下敏感数据:模型文件语料库、精调数据集这些核心资产如何在数据流通和使用中不被泄露或滥用?https:/ 三 届 e B P F 开 发 者 大 会背景介绍:传统方案&挑战敏感数据泄漏/外发
3、=有(可疑)进程读取了文件内容,并通过网络外发服务器上的安全 agent 如何观测这一行为?观测粒度/深度不足云原生场景支持不好上下文信息相对单一扩展性有限侵入性强第 三 届 e B P F 开 发 者 大 会eBPF:优势 观测粒度:函数 观测深度:应用层到内核层 云原生:内核观测 扩展性好 安全无侵入在哪里观测?第 三 届 e B P F 开 发 者 大 会技术架构:why syscall进程的敏感行为都要通过系统调用eBPF 可在内核态捕获进程完整的syscall调用序列用户空间和内核空间桥梁,上下文信息丰富进程信息(task_struct)文件信息(fd)网络信息(socket)系统调
4、用在 Linux 内核中相对稳定利用系统调用上下文来构建详细的进程活动视图,实现对各种行为的分析和检测第 三 届 e B P F 开 发 者 大 会技术架构:overview轻量高效的采集机制基于JIT,快速加载执行事件驱动,精准捕捉灵活的策略与检测引擎通过e-BPF Map 实现动态、灵活的策略执行Detection Engine 基于规则和算法,快速识别异常系统调用模式高效的响应与控制流程根据不同安全策略,对程序的行为进行审计或阻断第 三 届 e B P F 开 发 者 大 会工程落地:挑战按需采集(30w+/s)syacall入口:tracepoint:raw_syscalls:sys_
5、enter根据 syscall_id 过滤直接丢弃(15w20w+/s)大量调用返回 EAGAIN 等采样上报(10w50w+/s)read,write 等重复调用应用层采样上报,可配置直接丢弃按需采集采样上报400+syscalls失败调用高频大量的 syscall 数据(100w+/s)最终(原子化算子批量处理,数据并行,满足不同任务12个算子,5%CPU,8w+事件/s第 三 届 e B P F 开 发 者 大 会案例:大模型业务-不规范的数据使用在内部大模型业务中,该方案有效发现和阻止了员工的非法数据移动行为通过持续的监控和运营,规范了数据使用流程,保护了业务的核心资产大模型训练数据被
6、下载到办公网模型文件被移动到个人目录通过系统调用数据进行分析和挖掘快速定位和阻止类似的违规行为总结出常见的数据访问异常模式第 三 届 e B P F 开 发 者 大 会案例:大模型业务-恶意行为执行大语模型可通过代码执行和MCP协议实现复杂的任务处理与系统交互恶意代码执行(提权,逃逸等)不可信 MCP Server 的异常行为模式(访问敏感配置文件)构建 LLM 进程的系统调用基线模型,识别偏离正常模式的行为第 三 届 e B P F 开 发 者 大 会展望eBPF 不是万能