《LLM和Multi-Agent在运维领域的实验探索-张曦.pdf》由会员分享,可在线阅读,更多相关《LLM和Multi-Agent在运维领域的实验探索-张曦.pdf(20页珍藏版)》请在三个皮匠报告上搜索。
1、LLM和和Multi-Agent在运维领域的实验探索在运维领域的实验探索张曦 博士华为云SRE AI使能专家基于多模态智能引擎的大模型知识库技术应用Fabarta解决方案负责人/张红兵目录目录一、对传统运维方案的痛点思考一、对传统运维方案的痛点思考二、大模型给二、大模型给AIOps带来新机遇带来新机遇三、三、LLM和和Multi-Agent协同的运维方案协同的运维方案四、多模态基础模型四、多模态基础模型五、五、Multi-Agent协同框架协同框架六、智能运维未来六、智能运维未来“自动、自主自动、自主”前几年的前几年的AIOps技术方案能用,但还不够好用技术方案能用,但还不够好用扩展性有限扩展
2、性有限虽然不同模态基础检测模型已做到通用且可快速适配,但是在下游任务是耦合的:比如系统再新增一类数据或者去掉一类数据,那么根因定位逻辑可能需要修改,基于有监督训练的故障分类模型可能部分失效手动维护自动运维规则手动维护自动运维规则传统方案下的自动运维,需要工程师写下来出现什么情况执行什么动作,系统按照规则自动执行,不同系统的规则无法复用。无法有效利用专家经验和领域知识无法有效利用专家经验和领域知识传统模型没有涌现能力,有些模块还依赖具体场景的标签数据,对没见过的故障现象处理能力有限。人机交互不友好人机交互不友好整个运维流程是固定的,人想要查看某个检测数据细节需要自己查询数据库,无法随意指定中断或
3、新增某个处理环节。2年前的根因定位和故障分类方案年前的根因定位和故障分类方案局限性局限性/痛点痛点目录目录一、对传统运维方案的痛点思考一、对传统运维方案的痛点思考二、大模型给二、大模型给AIOps带来新机遇带来新机遇三、三、LLM和和Multi-Agent协同的运维方案协同的运维方案四、多模态基础模型四、多模态基础模型五、五、Multi-Agent协同框架协同框架六、智能运维未来六、智能运维未来“自动、自主自动、自主”大模型给大模型给AIOps带来新机遇带来新机遇运维三大能力运维三大能力针对运维领域海量知识快速获取、辅助诊断和故障分析能力针对运维领域海量知识快速获取、辅助诊断和故障分析能力针对
4、多源复杂部署的运维数据进行快速根因定位能力针对多源复杂部署的运维数据进行快速根因定位能力告警繁多、区分故障传播节点和故障根因节点历史排障经验积累数字化,形成知识库将LLM较为广泛的知识储备(横向能力)与运维领域专业知识(运维垂域)相结合运维工具繁多,利用LLM+多智能体协同使能运维自动驾驶针对多模态数据进行快速高效准确的异常检测能力针对多模态数据进行快速高效准确的异常检测能力多损益、多类型数据:Log、Metric、业务黄金指标、Trace数据异常不等于故障发生,识别可能造成运维故障的数据异常波动AI工程师工程师Devin:根据:根据issue描述和描述和code-base生成生成 diff,
5、自动修复,自动修复Devin 根据问题描述中提供的测试代码,更新测试文件根据问题描述中提供的测试代码,更新测试文件Devin Born Mar.2024AI可以写代码、可以写代码、debug、测试、编辑数据集、测试、编辑数据集过去过去故障修复依赖定制分析依赖专家经验依赖人工处理现在现在大模型编排实现自主决策、自动修复融合时序大模型、大语言模型、融合时序大模型、大语言模型、Agent编排、编排、RAG等技术,结合运维工具为一体的人机协同系统等技术,结合运维工具为一体的人机协同系统智能运维拥抱大模型智能运维拥抱大模型Multi-Agent自动化运维工具运维大语言模型自动诊断运维领域知识 RAGMO
6、E开源大语言模型运维领域高质量数据集Log FM多模态运维数据时序大模型Metric FMTrace FM故障诊断异常感知目录目录一、对传统运维方案的痛点思考一、对传统运维方案的痛点思考二、大模型给二、大模型给AIOps带来新机遇带来新机遇三、三、LLM和和Multi-Agent协同的运维方案协同的运维方案四、多模态基础模型四、多模态基础模型五、五、Multi-Agent协同框架协同框架六、智能运维未来六、智能运维未来“自动、自主自动、自主”LLM和和Multi-Agent协同的运维系统设计协同的运维系统设计LogMetricTrace历史告警信息历史告警信息服务部署架构信息服务部署架构信息D