1、蚂蚁智能可观测 Mpilot AI 助手落地实践蚂蚁智能可观测平台负责人 孜重初期挑战及思考AI 效率革命开源holo-gptMpilot落地实践目录:目录:AI 效率革命产品 AI 化趋势不可避免,GenAI 在可观测有哪些应用?AIAI涌现下的运维效率革命涌现下的运维效率革命场景面向面向 GenAIGenAI 时代的可观测产品时代的可观测产品GenAI 为可观测产品带来的核心价值MTTRMetric+log+trace非专业人员初期挑战及思考蚂蚁智能可观测平台业务场景编排及数据服务AI O ps 平台低代码编写及管理算法/特征服务险及运维知识全息可观测社区兼容协议(O penTel em
2、etry,Prom etheus)APM业务客户端/I O T基础设施LLM O ps告警分析溯源 混合云/跨云 端到端智能托管数字化营销商户监控解决案Pontus-多维时序型采集计算框架指标链路志事件.蚂蚁业务消商付信贷科技蚂蚁态业务出海国际钱包付宝商家财富科技数字科技消商付信贷科技财富科技消商付信贷科技财富科技Storage业务出海国际钱包付宝商家开源社区AntmonitorHoloInsight技术输出社区反馈Antmonitor 是蚂蚁集团发展长达十年的可观测产品,解决集团内部 规模化 及 复杂运维 场景。HoloInsight 是近两年孵化的面向轻量化、多样化场景的监控产品,服务 蚂
3、蚁生态 及 开源社区。技术架构技术架构-RAG-RAG(检索增强生成):(检索增强生成):数据索引检索LLM生成23 年开始投入,工程与模型同步推进,当时蚂蚁百灵模型还处于起步阶段,健壮性 和 逻辑推理能力 偏早期。大模型 token 限制 及 多模态支持有限,内容生成精度和丰富度受限。向量存储,合适的 向量化算法 和 检索算法 待探索。挑战:挑战:仅核心场景:重点选取跟产品深度融合且高频使用的场景单场景:对应一个具体的场景,使用一个复杂解读+多个原子能力的模式。场景选择场景选择百万级别错误日志PB级别时序数据百万级别/日告警原则原则:交互模式(交互模式(LUILUI)统一的会话框:不同于传统
4、GUI,使用对话驱动(LUI)并 在LUI中融合不同场景。统一引导和模版:每个场景都有各自 特定的引导,给出 问题样例,方便用户快速试用。同时用户也可以 自定义快捷模版,快捷模版类似于快捷方式,方便用户快速输入问题。丰富的图文支持:支持展示普通文字/图文混排/静态HTML/Markdown,针对时序解读场景支持按照表格/饼图/曲线展示指标数据。Mpilot 落地实践Pontus(采集/计算框架)Ceresdb(时序存储)MaaS函数化插件服务服务端客户端智能告警AntmonitorMpilot时序助手日志助手告警助手LLM+Vector DB工具PromptDataMpilotMpilot 技
5、术架构:技术架构:MaaS(Monitoring as a Service)监控即服务,核心是通过代码化的方式开放监控的数据和相关服务,帮助运维和研发同学,快速构建监控分析及平台联动方案,推动蚂蚁技术风险领域 AIOps 落地。MaaSMaaS-提供函数工具服务:提供函数工具服务:类别类别量级量级监控数据集45000+spider9000+cspider9000+wikisql4000+表1 Text2sql SFT数据集 业务指标探索 应用/系统指标查询时序助手:时序助手:场景:监控指标分析图1 交易量top的银行(表格)图2 单机cpu利用率查询(曲线)图3 应用报错单机分布(饼图)时序助
6、手:时序助手:类别类别量级量级蚂蚁业务5000+蚂蚁中间件1500+stackoverflow2500+表1 日志解读 SFT数据集日志助手:日志助手:应用发布灰度时异常排查 故障应急排查场景:解读应用错误日志查询变更报错趋势图1 某应用最近是否变更图2 错误日志历史反馈情况图3 错误日志综合解读图4 关联应用报错趋势异常检测日志助手:日志助手:告警助手影响面影响面告警恢复告警恢复告警通知告警通知辅助故障影响面计算关联告警查询初步根因定位应急处置流程查询场景:告警应急处理图3