《A3--张加浪--大模型驱动运营提效:智能异常感知与根因分析实践.pdf》由会员分享,可在线阅读,更多相关《A3--张加浪--大模型驱动运营提效:智能异常感知与根因分析实践.pdf(35页珍藏版)》请在三个皮匠报告上搜索。
1、大模型驱动运营提效智能异常感知与根因分析实践张加浪腾讯资深质量运营研发工程师姓名腾讯 资深质量运营研发工程师多年一直从事AIOps相关研究和建设工作,原腾讯智能监控负责人,从0到1组建智能监控商业化产品。对内支撑了腾讯会议、QQ空间、云网络、云存储等上百个产品的监控感知。腾讯网络安全质量建设负责人,将大模型、AIOps引入安全业务实践落地,使业务得到显著的提效和提质目录CONTENTS质量运营现状0102大模型带来的机遇大模型应用研究与实践03未来展望与探索04PART 01质量运营现状质量运营现状随着DevOps模式的普及,规划、开发、测试、交付的效率越来越高效率越来越高Waterfall开
2、发模式AgileDevOpsMonitorPlanCodeBuildTestDeployOperateReleaseMicroservicesMonolithicN-Tier系统架构Physical ServerVirtual ServersContainers部署模式CloudData CenterHosted基础设施架构从开始的一体化到分层模式,再到现在的微服务架构模式系统更加稳定容器化的部署模式动态性增强,每个实例的生命周期变得更短环境动态性增强云原生应用依赖云上的各类产品,上下游变得更顺上下游依赖更顺质量运营现状在当今竞争激烈的市场环境中,质量已经成为企业生存和发展的核心竞争力之一。质
3、量运营是以用户为中心,围绕服务的可用性、性能、安全性 等多个维度,运用一系列的技术手段、管理方法和流程体系,对互联网服务从设计、开发、部署到运营的全生命周期进行持续监控、优化和改进的过程健康性终端业务质量对用户健康、可用、无损,以用户高质量体验为目标可用性业务模块链路服务可用,避免服务故障单点,避免服务不可运行稳定性基础资源稳定,服务单节点有效,底层用量、性能等能量化、可感知质量运营质量运营环节发现质量指标覆盖异常感知监控感知告警运营分析问题快速分析智能根因分析影响情况分析止损问题快速止损智能自动处置处置知识沉淀132运营服务问题收敛质量持续运营标准规范实施4质量运营现状 感知监控阈值/波动智
4、能监控(机器学习)质量运营现状 根因分析人工分析智能分析(机器学习)存在的不足感知告警根因分析技术门槛高可读性差告警分散建设陷阱服务“孤岛”缺少业务特性数据源杂乱泛化能力差PART 02大模型带来的机遇大模型的崛起大模型的崛起大模型赋能质量运营(AIOps)PART 03大模型应用研究与实践大模型运营提效利用大模型自动进行问题的根因分析,提升问题分析能力,加强问题分析止损效率智能根因分析解决“告警风暴”问题,将有限的精力聚焦到真实或高危的风险上智能告警降噪基于大模型支持业务直接查询,降低重复性的沟通成本,缩短运营提数耗时智能运营问答利用大模型自动进行云服务故障的根因分析利用大模型自动进行云服务
5、故障的根因分析大模型智能告警降噪告警风暴:感知告警覆盖与有效如何平衡?每天几百万条的业务告警与系统质量告警,运营精力和时间被无效信息消耗殆尽大模型智能告警降噪智能提质降噪智能提质降噪重保提效降噪重保提效降噪智能分级降噪智能分级降噪 指标波动异常识别 业务特性关联研判 多指标联动综合判别 重保告警关联整合 智能业务资产识别 智能护航支持 业务威胁判别优先级 RAG匹配历史样例 频繁项/指标相似关联整合大模型智能告警降噪大模型智能根因分析全量数据链路关系专家经验大模型智能根因分析现有指标、告警、日志关联分析,提取对象信息,对象异常判别:根因候选集业务知识库、专业知识检索,根因分析注入业务判别积累样
6、本数据,相似案例检索,基于运营沉淀提升有效性大模型智能根因分析大模型智能运营问答运维运维研发研发业务业务OpsOps负责人负责人AIOpsAIOps架构架构支持精力有限类似重复咨询场景不同,语言代沟最后一公里效率低感知数仓感知数仓业务数仓业务数仓OpsOps数仓数仓大模型智能运营问答大模型智能运营问答背背景景需需求求方方案案效效果果业务生产最重要就是基于有效性及时信息作出真确的判断与操作,效率至上。如业务故障止损要分钟级完成分钟级完成,现实是沟通信息和确认往往都要1010分钟