1、基于LLM的下一代AIOps主讲人:饶琛琳演讲嘉宾介绍饶琛琳日志易产品副总裁 信通院DevOps、AIOps和可观测性标准编写组专家。信创工委会大数据组组长,运维组技术标准副组长。ChatGPT速通手册、ELK Stack权威指南、网站运维技术与实践作者。Puppet实战手册合译者。CONTENT目录目录0 01 1选择LLM应用场景的原则AIOps领域落地LLM路线图日志易场景探索及介绍0 02 20 03 3Part 01选择LLM应用场景的原则 cohere 三原则 不适合场景举例LLM 的适用场景的选择 无需模仿人类交谈;无需推理能力;任务和语言文字无关-驱动其他模型,比如 KPI 异
2、常检测、Tracing 根因定位、SD 画图等。有海量数据集供训练,且预测数据同分布;非创意性的文本或复杂的逻辑代码生成;内容已经自包含知识-传统的实体识别、知识图谱。对结果正确性有强要求-尚未解决方案。cohere 总结 LLM 场景三原则cohere 公司创始人 Yunyu Lin,曾经著文讲解他认为最合适大语言模型的三类场景:1.There is no one correct answer(creative applications,summarization)2.There is some tolerance for error(routing,tagging,searching,an
3、d other tasks where perfection isnt required)3.The answer can be easily verified(math,writing code for specific tasks,or human-in-the-loop use cases).不适合场景:正则表达式生成正则表达式 ChatGPT 生成的正则表达式,无法满足 easily verify 标准。下面正确的正则表达式,你能看出哪些差异么?(?d1,3.d1,3.d1,3.d1,3)s-s-s(?+)s(?GET|POST|PUT|DELETE)s(?s+)sHTTP/d.ds(
4、?d3)s(?d+)s+s+s+s(?d.+)s(?d.+)$不适合场景:大数据清洗 上图是亿级小模型的推理性能数据,一秒钟能生成 token 不到 100。ChatGLM 社区的总结:在一张 3090 显卡上,10 秒钟大概能回答一个复杂问题。在一张 A100 显卡上,FP16 精度的推理性能大概是20-30 token/s。因此,对输出有高速要求的场景,比如数据清洗、字段解析、日志异常检测等,LLM 也不适合。Part 02AIOps领域落地LLM路线图 场景与依赖 国外进展LLM落地路线图(裴丹教授版本):四阶段13241.开源大模型底座+公网运维知识微调+私域运维知识微调和提问引导。2
5、.为告警管理提供意图识别、总结能力。3.根据历史工单给出相似提示、告警摘要。OpsLLM简单运用1.Lang2Template:API/SPL/SQL/Conf2.利用 langchain/APIChain进行编排,将自然语言转换为 prompt template,通过 agent 拆解调用各种运维工具。需要开发的 OpsLLM统一的指标模型、日志模型、调用链模型、告警模型;知识图谱,支撑端到端场景。多模态的运维基模和图谱由 OpsLLM 驱动多模态基模,最终解决质量、效率、成本、安全等运维场景。最终整合形态LLM落地路线图:四阶段的难题如何挑选开源 LLM?01“公网运维知识”怎么来?02“
6、私域运维知识”怎么用才好?03提示工程的引导词怎么写才好?04微调数据怎么来?05lang2template 准确度高么?06怎么控制/验证 agent 效果?07怎么迭代 OpsLLM?08阶段一国外产品:告警概要 zebrium 公司,2021 年,基于 GPT-3 设计。对归并后的告警,按根因概率排序,提取正倒序第一条作为 prompt 内容,编写告警摘要:An expert examined the logs for the incident.The first log message was:.The last log message was:.The expert describe