《张鹤-券商核心交易系统 AIOps 探索实践.pdf》由会员分享,可在线阅读,更多相关《张鹤-券商核心交易系统 AIOps 探索实践.pdf(23页珍藏版)》请在三个皮匠报告上搜索。
1、2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站券商核心交易系统AIOps探索实践张鹤 资深运维平台专家11年研发经验,长期从事运维平台建设工作,目前负责一体化智能运维体系建设工作,擅长应用CMDB、AIOps等领域的平台能力建设,及一体化智能运维场景的建设。01核心交易系统特点分析02AIOps落地与实践03AIOps建设问题探讨目录Content01核心交易系统特点分析运行特点与运维痛点分析2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站核心交易系统运行特点交易、结算等核心业务,实时性要求高属于关键信息基础设施,要求安全等保三级重要性高重
2、要性高部署复杂:共部署700+台服务器业务复杂:1000+类交易场景,10000+个服务复杂度高复杂度高与核心交易系统存在上下游交互的系统共70+个影响面广影响面广日均订单量:1500万+交易日峰值TPS:11万+访问量大访问量大每周进行一次常态化版本升级,每月进行一次大版本升级变更频繁变更频繁2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站核心交易系统运维痛点版本质量运维专业性可观测性核心交易系统的外购模块,出现偶发的版本质量问题变更频繁加之版本质量不高,导致版本升级后容易出现生产问题版本质量版本质量由于缺少traceId,核心交易系统难以实现业务的全链路故障分析日
3、志量巨大,平均每天产生3000万+日志,导致难以发现问题可观测性可观测性核心交易系统对运维人员的专业水平、业务知识的能力要求较高发生故障时,需要以最短时间进行应急,并控制操作风险运维专业性运维专业性02AIOps落地与实践核心交易系统AIOps场景2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站AIOps体系架构2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站场景一:毛刺风险分析AIOps分析与计算核心功能号基于镜像流量的请求RTT计算指标时序库实时偏离度计算异常毛刺毛刺聚合毛刺工单运营毛刺风险工单毛刺分析毛刺工单反馈SRE运营人员跟踪运营核
4、心功能号实时性要求高,整体耗时要求在10ms左右,且不能出现频繁波动固定/动态阈值告警,无法感知耗时指标的瞬时突变,而瞬时突变可能是系统异常导致提升核心功能号的监控保障能力帮助SRE发现系统的潜在风险场景背景场景意义3-sigma算法RTT指标数据训练生成动态阈值区间核心接口大屏一线运维早开盘盯屏2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站场景一:毛刺风险分析360毛刺巡检大屏通过毛刺风险工单,跟踪SRE对于毛刺风险的分析与反馈情况,推动SRE进行毛刺风险分析核心接口保障大屏支撑早开盘期间,核心接口服务状况的跟踪2023 DevOps 国际峰会 暨 BizDevO
5、ps 企业峰会 北京站场景二:内存清算耗时异常检测内存清算过程出现问题的概率虽小,但影响巨大,属于核心业务,需要重点保障,出现异常时,需要第一时间介入处理清算步骤执行结果监控未全面覆盖,部分步骤的执行结果无法自动感知业务原因可能导致部分清算步骤的执行时长日渐增长,进而触发超时异常提升内存清算过程的异常感知能力提早发现清算步骤执行时长的突变与渐变,节省SRE的处置时间场景背景场景意义清算步骤执行时长起始时间AIOps平台模型训练孤立森林算法AIOps业务场景执行时长突变执行时长渐变开始时间突变动态基线模型匹配起始时间趋势分析步骤相似度分析实时检测合理区间匹配趋势分析开始时间渐变异常分析清算大屏2
6、023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站场景二:内存清算耗时异常检测清算全过程集中管理目前已纳管内存清算的所有步骤节点,可展示清算步骤的执行过程与顺序。清算过程实时展现结合清算节点本身的业务监控能力、清算节点耗时AIOps异常检测能力,实时呈现清算全过程的成功、失败、异常情况。2023 DevOps 国际峰会 暨 BizDevOps 企业峰会 北京站场景三:集中交易日志异常检测错误日志运行日志其它类型日志AIOps平台时序检测3-sigma算法AIOps业务场景新日志异常点突变异常点历史异常查询异常标注告警反馈故障研判通过文本相似度,流式计算相似文本、聚合计算、