《6.Agith宣讲材料.pptx》由会员分享,可在线阅读,更多相关《6.Agith宣讲材料.pptx(13页珍藏版)》请在三个皮匠报告上搜索。
1、首届中国首届中国eBPFeBPF研讨会研讨会基于eBPF的变更风控工具Agith首届中国首届中国eBPFeBPF研讨会研讨会上官栋栋华为中央研究院服务实验室研究员陈鹏飞中山大学计算机学院博士生导师张钧宇中山大学计算机学院硕士在读变更导致的故障占比变更导致的故障占比40%40%首届中国首届中国eBPFeBPF研讨会研讨会产品问题+供应商问题占比53%现网作业+手动变更占比40%84.7%的故障发生在系统升级与维护过程中华为云故障根因分析公开云故障数据根因分析【1】1 Going through the Life Cycle of Faults in Clouds:Guidelines on Fa
2、ult Handling.X Li,G Yu,P Chen,H Chen.Z Chen.ISSRE.2022变更风控的现有方案变更风控的现有方案首届中国首届中国eBPFeBPF研讨会研讨会事前权限管理:建立权限管理机制。根据运维账户的权限,放行或者限制操作命令,降低系统风险。黑白命令拦截:对运维人员的操作命令建立黑白名单。运维命令符合白名单关键字予以放行,命中黑名单关键字则要拦截。事中变更服务监控提高变更服务的监控等级,观察分析变更前后业务指标的变化命令日志:在运维过程中,记录运维人员的操作命令与目标主机的回显数据。事后安全审计:查询运维操作的日志,根据预定义的规则审计违规操作,发送告警信息。
3、故障根因分析:当故障发生时,检索与故障节点相关的变更单。分析相关性,采取对应措施恢复故障。疏密难控非结构化数据产品视角效率低非结构化数据变更视角面向服务的监控方式面向服务的监控方式首届中国首届中国eBPFeBPF研讨会研讨会面向服务面向变更MetricsLogTrace传统的指标、日志、Trace是面向服务,监控独立服务的状态。但一次变更过程中,对系统资源的修改不会只影响一个服务。以云服务的视角监控变更过程如同从街边摄像头监控行车。即使车辆在此处无违规,无法保证在监控盲区的运行可控。首届中国首届中国eBPFeBPF研讨会研讨会变更监控工具Agith(Agent Smith)从疫情流调到命令影响
4、面定义从疫情流调到命令影响面定义首届中国首届中国eBPFeBPF研讨会研讨会场所人线点系统资源静态对象进程服务动态对象操作语义网络端口权限秘钥配置文件程序脚本数据库环境变量云服务(ECS/OBS)中间件(Kafka/LB/DNS)平台工具(docker/K8S)CRUD(数据类)升级、回退(版本变更)命令影响面借鉴疫情流调,将流调图中的点(场所与人)线映射为IT系统中的系统资源、进程服务与操作语义,构建变更对系统影响的结构化数据,称之为“命令影响面”。构建进程树确定监控对象构建进程树确定监控对象首届中国首届中国eBPFeBPF研讨会研讨会Bash PIDPIDPIDPIDPIDPID手动变更场
5、景:用户通过堡垒机登录远程服务器,SSH会启动一个Bash,通过Bash执行变更命令。Agith部署在执行变更的节点。将Bash的PID作为启动参数。监控器会将Bash的PID作为进程树的根节点。eBPF内核程序监控copy_process系统调用。当发现调用copy_process的进程属于进程树,将新建立的子进程的PID作为叶子节点挂载在对应的父进程上。进程树中的进程都是监控对象。分析命令确定监控行为分析命令确定监控行为首届中国首届中国eBPFeBPF研讨会研讨会linux查询命令文件命令进程命令网络访问云服务命令数据库命令显示磁盘用量df路径操作cd启动脚本sh网络访问curlcinde
6、r命令cinder进入mysql控制台mysql查询历史命令history删除文件rm启动python脚本python远程访问wgetnova命令nova查询SELECT流量统计命令tcpdump修改文件vim删除进程kill远程复制scpneutron命令neutron修改UPDATE黑名单命令类型灰名单命令类型白名单命令类型分析华为云单月运维命令(41万),划分为不同类型,逐类型完成设计监控方案,补充监控挂载点监控监控文件、网络、进程类系统命令文件、网络、进程类系统命令首