《05-宋庆羽-期货行业的Oncall实践.pdf》由会员分享,可在线阅读,更多相关《05-宋庆羽-期货行业的Oncall实践.pdf(19页珍藏版)》请在三个皮匠报告上搜索。
1、期货行业的期货行业的Oncall实践实践目 录Catalogue.1业务痛点2解决方案3具体实施4后续展望业务痛点业务痛点期货业务需根据不同的交易所的分布,存在多时段交易,分为早盘、夜盘,运维全程参与保障,要求运维人员全天需要进行值班。期货交易的连续性、特殊性、实时性、高风险性及交易高峰时的压力等综合因素对期货信息系统的安全稳定运行提出了极高的要求。业务痛点通过夜莺将分散且多源的告警进行了整合,但是仍有一些行业特色的监控告警平台(OceanBase、沃趣、天旦、科莱等)。运维人员平均每周需要处理数万个报警通知。面对庞大的数量,导致对报警敏感度下降,错过重要的报警,曾因遗漏关键报警而引发生产事故
2、。解决方案需要统一高效的Oncall体系统一、高效Oncall体系合理值班体系告警聚合抑制统一告警通知Oncall体系建设思路OncallOncall平台的建设平台的建设选型成熟的相关平台,以实现统一告警接入、值班排班、报警升级以及报警降噪等核心需求,全面覆盖我司的运维场景。OncallOncall制度的建设制度的建设公司层面,建立相关的制度及岗位,配备专职团队(EEC监控岗),负责建立、完善Oncall制度,沉淀相关的能力,跟进Oncall中的遗留问题。持续运营的能力持续运营的能力通过数据量化的方式(如MTTA、MTTR),定期量化各团队的运维Oncall工作,持续进行告警治理,提升Onca
3、ll的效率。内部平台打通,提升效率内部平台打通,提升效率与内部CMDB等元数据信息系统实现打通,复用相关元数据,从而有效降低平台的建设成本。具体实施Oncall工具的选型实现值班实现值班/排班的能力,建立合理的报警升级策略;排班的能力,建立合理的报警升级策略;利用服务日历功能,适配金融行业的运营特点;利用服务日历功能,适配金融行业的运营特点;对接我司体系内的各类告警数据源;对接我司体系内的各类告警数据源;实现统一的告警降噪实现统一的告警降噪/抑制处理策略;抑制处理策略;借助Flashduty来实现:落地困难行业的特殊性存在“非标监控平台”如:网络分析(天旦、科莱)、OceanBase、Tdsq
4、l、沃趣Qfusion、SmartX平台,仅提邮件供告警方式,很难通过webhook的方式和第三方联动,无法实现告警IM化;借助Flashduty的“邮件集成”的能力,解决相关问题。Flashduty定位我司统一告警中心,实现对接全部告警源解决方案发送告警邮件接收邮件根据内置模板提取邮件信息形成Flashduty中的定义的告警事件最终实现了告警系统的全覆盖。Oncall机制Oncall中心团队1团队2底层系统团队系统报警直接分派到团队ECC监控团队业务类告警首先发送给ECC监控团队直接处理A业务主管B业务主管相关值班同学相关值班同学相关报警转派给业务方主管直接处理公司各领导同步分派分派 识别系
5、统告警/业务告警;业务告警同步到公司核心报警群,各负责人均需要关注各类告警内部系统对接 与CMDB对接:内部正在建设CMDB的元数据系统,实现资源与人的关系管理,如何能在告警系统中复用这个能力?资源出现问题,可以直接关联到人,避免关系的重复维护;(建设中)客户白名单对接:公司有客户白名单数据(比如IP白名单),但是之前很难和各报警系统进行对接,经常造成误发告警,通过Flashduty实现与其统一的白名单关联,报警更具针对性;通过标签增强对接内部系统Oncall中心CMDB各类告警(IP:xxx)白名单数据根据IP查询设备负责人根据IP查询是否在白名单告警事件IP:xxx负责人:xxx白名单:Y/N报警信息增强正确的报警处理人报警通知举例后续展望后续展望持续优化Oncall体系随着业务的发展和技术的进步,持续对Oncall体系进行优化,确保其适应性和高效性。提升告警智能化水平通过引入人工智能、机器学习等技术,对告警进行更智能的分析、分类和处理,减少误报和漏报。其他行业合作交流积极与其他行业进行Oncall领域的合作与交流,学习借鉴先进经验,推动自身Oncall体系的发展和创新。感谢聆听Thank you for listening