《周彩钦-基于GenAI的混合云智能运维实践.pdf》由会员分享,可在线阅读,更多相关《周彩钦-基于GenAI的混合云智能运维实践.pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、基于GenAI的混合云智能运维实践周彩钦 联想演讲嘉宾周彩钦联想/混合云产品研发总监联想混合云产品研发总监,负责联想xCloud产品的研发。在技术研发和团队管理方面拥有丰富的经验,成功带领团队开发了AIOps、云原生平台等前沿产品。通过这些创新,推动了联想智能运维转型,实现卓越运维。目 录CONTENTS1.联想混合云智能运维发展历程2.GenAI混合云智能运维架构3.GenAI的运维应用场景4.实践经验与展望联想混合云智能运维发展历程PART 01联想IT发展历程1998-2004 信息化ERP OA系统实施2005-2016全球化+数字化全球战略平台整合2017-未来智能化全球智能化平台建
2、设数据数据孤岛运维手工,部分脚本化应用开发信息化系统逐步建立传统瀑布式开发基础架构中国本土传统数据中心传统基础架构数据数据仓库大数据平台运维自动化平台应用开发核心业务系统协同双模式开发(瀑布式+敏捷)基础架构全球数据中心基础架构国产化替代全面虚拟化+部分云化数据数据治理统一大数据平台数据智能应用运维数据驱动的智能运维应用开发云原生平台应用的云原生改造敏捷开发基础架构基础架构全面云化混合云落地联想智能运维发展历程私有云数据中边缘数据中公有云数据中北京德国 法兰克福美国 弗吉尼亚巴 圣保罗新加坡宁夏港武汉美国 罗利美国 赖思顿德国 埃森美国 芝加哥沈阳美国 惠特赛特庞蒂切瑞 印度成都惠阳美国 蒙特
3、雷深圳上海印度 孟买*2*3*2运维作效率资源交付效率动化率70%60倍50%+效 率 提 升SLAMTTR重故障99.99%+90%30%故 障 减 少280+型园区,分机构21私有云数据中17 个国家20,000+容器3,000+应系统30,000+服务器77,000+员联想全球化数据中规模脚本编辑,执CMDB多个独具动化平台DevOps具链运维服务运维数据湖统AI平台端到端运维动化系统数字化可视化端到端智能化场景AI决策成式AI服务化、持续交付运维全量数据机器学习标准化运维具化运维动化运维数据驱动运维AIOps专家运维经验固化到脚本、具快速响应快速诊断DevOps业务服务智能预警数据运维
4、智能化运维主动预测主动预防GenAI混合云智能运维架构PART 02GenAI混合云智能运维架构-联想xCloud AIOps联想xCloud AIOps是企业级IT运维智能管理解决方案,以数据驱动的智能分析为脑,以可观测的监控告警为眼,以任务驱动的自动化平台为手脚,实现混合云环境端到端的智能管理。业务价值价值提升动化、标准化和智能化的运与维护,效率提 70%保护业务连续性全栈监控、智能监控&告警,及时主动运维降低MTTR标准化流程和人工智能使平均修复时间MTTR缩短 90%可观测性平台(Hubble)CMDB统IT服务户ITSM平台自动化平台(AWP)运维数据湖平台管理中心基础设施监控日志监
5、控授权管理自动化运维场景应用性能监控租户管理产品管理统一告警智能可视化平台场景集市管理数据源管理低代码引擎数据抽取数据存储数据管理数据洞察数据模型管理数据访问编排管理脚本管理资源&认证管理服务录在线报障单据管理审批中知识查询知识数据中心管理3D数据中心数据中心设备管理数据中心监控告警数据中心运维流程数据中心运营报表巡检中心补丁管理日常配置备份&恢复文件中心管理配置信息建模配置项数据管理资产生命周期管理自动发现数据集成及调和数据质量管理设备远程安全访问密码管理录屏审计问题管理故障管理变更管理服务请求工作台知识库管理服务SLA管理任务管理自动化引擎资源管理流程管理权限管理通知管理审计志数字体验监控
6、监控&告警集成RPA高危命令拦截xSpark智能任务调度助手运维代码助手运维知识库助手智能分析异常检测根因分析容量预测智能调度告警降噪故障愈通用算力AI算力信创公有云HPC边缘混合云基础设施智能运维领域专利10+算法框架智能分析平台设计AIOps分析服务异常检测算法及模型管理 服务目录服务编排通用数据分析服务通用操作分析服务时序数据预测文本语义分析降维压缩指标数据分析事件单据分析故障知识图谱健康度分析日志解析文本实体识别分类聚类趋势异常检测日志异常检测多指标异常检测多维度异常检测根因分析调用链根因定位关联关系分析专家规则故障树告警压缩告警降噪成本控制调度优化OpenStack资源调度优化数据库
7、资源调度优化智能扩缩容成本预测数据准备构建模型训练&调优部署&管理日志分析故障预测磁盘异常预测网络异常预测容量预测服务器故障预测设备资源优化告警聚类联想智能分析平台(AI Analysis)基于判别式AI技术,旨在为 xCloud AIOps 产品提供传统算法服务支持,涵盖从异常检测、根因分析到成本控制和资源优化的多个智能运维场景,助力企业提升IT运维效率和系统稳定性。联想智小星(xSpark)-基于GenAI的IT运营智能体联想智小星(Lenovo xSpark)是基于生成式AI的IT运营智能体,可嵌入或集成到 xCloud AIOps产品中。全面提升IT运维效率和用户交互体验。服务层能力层
8、基于领域知识的智能问答代码生成任务自动化执行多模型管理集成提示词工程RAG引擎工具调用工作流编排IT运营智能体智能体xSparkIT运营场景智能可观测性异常分析总结故障解决方案推荐智能IT服务管理智能提单知识自动生成智能运营驾驶舱对话式运营分析数据报告智能生成智能运维自动化运维脚本生成异常作业执行分析模型APIxCloud Product内置集成,开箱即用IT运营知识库集成IT运营工具集成行业知识管理产品集成支持,简单配置数据开源大模型闭源大模型自有IP运维大模型客户自研产品高级配置(文件、API导入)xCloud Product内置集成,开箱即用行业运维应用集成支持,简单配置自开发产品高级配
9、置(API、Python)大模型运维知识库运维工具库业务价值GenAI 赋能IT运营依托xCloud产品生态,整合企业IT运营知识和工具,为企业提供一体化的智能运营解决方案保障数据安全支持内部部署,确保企业数据安全与第三方系统开放式集成提升运营效率根因分析效率提升运维研发效能任务执效率18%11%22%GenAI的运维应用场景PART 03智能运维场景介绍-Gartner运维场景从业务导向出发,场景分类和业务价值没有本质改变;结合GenAI技术,应更多关注对技术可行性评估带来的改变和技术实现路线;GenAI is not a silver bullet.many business proble
10、ms will require a combination of different AI techniques.(Gartner)总结总结联想 xCloud AIOps-智能运维场景总览联想 xCloud AIOps秉承“AI as a Service,AI Everywhere”的战略,全面整合判别式AI和生成式AI算法,提升智能运维能力。智能运维助手领域知识助手统一服务门户设备上架推荐温湿度预测设备规划与预警巡检路线规划关联关系推荐智能数据治理智能拓扑配置管理数据库(CMDB)数据中心基础设施管理平台(DCM)智能组件智能主题自动数据总结智能识图智能查询助手数据洞察运维可视化平台(Ins
11、ight)运维数据湖(Ops DataLake)问题解决推荐知识查重故障解决推荐智能提单智能派单IT服务管理平台(ITSM)聚类算法关联分析文本处理时间序列预测异常检测回归算法智能分析服务(Analysis)运维开发助手运维任务执行助手智小星(xSpark)运维知识助手异常检测容量预测故障自愈可观测平台(Hubble)告警压缩根因分析异常登录识别智能编排智能巡检开发助手运维自动化平台(AWP)故障自愈资产智能规划故障智能分析对话式分析DC运维助手变更风险分析知识图谱资源数据洞察健康度分析日志分析解决推荐传统人工智能生成式人工智能运维故障解决推荐 Scenario Description痛点及挑
12、战传统的事件诊断通常严重依赖专家领域知识。通常需要从各种来源提取不同的数据,导致在识别和解决问题时出现延迟,影响系统性能和用户体验。方案描述与价值基于运维大模型,结合RAG技术,结合运维告警信息以及企业内部历史解决方案沉淀,提供定制化的洞察和准确的解决方案建议。在警报和事件分析中提高了18%的效率,导致响应时间更快,整体系统可靠性得到提升。监控告警分析与解决推荐DevOps DevOps 日志智能分析故障单据告警单据日志Embedding模型基础文本块运维知识解决方案运维规范向量数据库相关文本块 重排 过滤 上下文拼接 提示词 大语言模型档、数据库、API输入信息OCR布局分析切片数据解析器G
13、enAI IT自服务-智能运维执行助手 Scenario Description痛点及挑战在IT运维中,存在大量重复性任务。操作人员通常需要执行跨平台查询以满足一个简单的用户请求。方案描述与价值智能IT自服务:结合运维插件,用智能体实现用户自服务提高用户自助服务率,减少操作人员的工作量。在常规运维任务执行中提高了22%的效率。智能运维工具池运维执行助手运维数据分析运维单据查询资产查询智能巡检单据自助查询智能巡检运维报表查询具获取记忆控制任务计划具调API执结果返回React Agent PipelineGenAI智能自动化应用场景 Scenario Description痛点及挑战IT运维经常
14、需要创建和维护各种脚本,用于在不同系统上执行安装、部署和备份等任务。手动开发脚本大量占用人力开发资源。方案描述与价值GenAI支持的运维脚本开发,由专用代码模型驱动。辅助生成自动化操作脚本:自动生成代码、智能建议和自动填写注释。运维脚本开发效率提高了11%,降低运维编码门槛。脚本开发助手异常作业执行分析运维代码助手代码解释代码生成代码优化自动化操作操作脚本编写操作执行开源代码模型提示词模板提示词匹配Code+PromptCode+Log+Prompt日志分析解决建议运维自动化规则式判别GenAI智能自动化应用场景 Scenario Description痛点及挑战数字经济带来员工与应用交互的场
15、景数量上涨,对RPA技术需求在不断增长。RPA低代码配置技术比较僵硬,需要编码判断规则。方案描述与价值辅助RPA脚本的自动生成,同时,模拟人类大脑赋予认知能力,在RPA中起到分析与决策作用,实现更加灵活的智能自动化。AI嵌入的运维自动化脚本自动化任务RPA 自动化任务自动化任务类型自动化任务判断用户输入的意图分析分类AI嵌入的运维自动化场景巡检报告总结自动化任务告警内容生成运维数据分析总结AI 任务AI 智能判别事前:健康度评估、指标趋势预测等辅助IT运营风险防控、容量预测辅助资源精准规划、IT运营成本控制,降低故障发生数量;事中:告警智能收敛及解决方案智能推荐等提升IT资源可观测性及告警效率
16、,运维人员实时响应和处理,减少故障持续时间;事后:根因分析、故障定位、影响面分析等辅助运维人员深入了解问题根因,提升运维质量及效率。监控工具应性能监控基础设施监控云原监控志监控数据集成指标链路志事件CI数据A数据关联基于规则的数据关联AI 赋能关联AI赋能丰富故障相关信息指标链路志B智能检测/预测静态阈值检测动态阈值检测指标趋势预测智能志异常检测容量需求预测智能健康度评估C告警收敛基于规则的告警压缩AI驱动事件去重AI 驱动告警压缩数据洞察仪表盘报告智能分析告警处理告警流程标准化根因分析告警处理智能案推荐告警影响分析告警动化告警通知动创建故障单据智能告警愈集成外部协作系统DEFGAIAIAIA
17、IAIAIAIAIAIAIAIGenAI智能可观测性应用场景 Scenario Description痛点及挑战多样化且分散的监控工具,缺乏端到端的监控视图和自助监控。传统监控运维,需要大量依赖规则和专家经验,故障排查困难。方案描述与价值AI赋能可观测性的全生命周期,提升系统内部的状态、行为和性能等方面的观察、分析和监控的程度。利用混合AI策略,涵盖事件事前、事中和事后不同阶段,提升运维处置效率。容量规划助手事件分析助手GenAI运营数据洞察应用场景 Scenario Description痛点及挑战大量的数据分散在数据孤岛中,需要快速进行数据挖掘与展示,发现数据的价值以指导运营。方案描述与价
18、值利用生成式AI技术,打造运营数据查询与分析助手,让用户轻松实现运营数据报表构建与分析洞察。数据ETL数据探索性分析报表配置通过拖拉拽配置方式,即可完成数据接入与建模。配置数据查询助手,自动生成查询SQL。仅需勾选字段,AI引擎自动推荐字段组合和聚合方式,并用合适的图表进行展示,快速构建图表。一键生成&智能美化SQL脚本开发Python脚本开发大屏&数据配置Analytics DeveloperBusiness ConsumerAnalytics DeveloperAnalytics DeveloperBusiness ConsumerBusiness Consumer组件智能推荐数据查询助手
19、推荐图表加入备选后,可一键生成大屏。借助智能主题可进行配色、布局、边框元素的优化。数据分析对话式智能分析人工分析数据趋势Business ConsumerBusiness Consumer基于决策式AI,对数据进行趋势、对比分析等。利用生成式AI,对话式交互,生成分析报告。实践经验与展望PART 04模型需求启动成本低完整的具链具平台积累闭源模型开源模型数据隐私安全私有化部署迭代更新快深度优化依赖专业团队开源供给型/中型闭源供给型/超型模型供给模型壁垒技术护城河模型先进性、稳定性、安全性等保障技术追赶优化培植态部署应资源的引流变现结合GenAI擅长的领域(内容生成/总结,RAG,Code生成等
20、)以及运维实际场景,选择采用合适的GenAI方法。开闭源模型各有所长,不同场景选择不同模型。数据安全会影响模型的选择(开源/闭源,私有化部署/公有云)。构建模型运维追踪体系,通过量化指标定义模型表现,持续优化提升AI场景表现。总结总结GenAI智能运维应用实践经验 场景与模型选择AI Everywhere:GenAI嵌入到产品的实际功能场景中,触手可得,发挥价值;持续运营,效果监测,不断优化(提示词/知识库/Fine Tune等)。企业为确保生成式AI顺利落地,应协同产品经理和研发团队,推动一体化:包括体验一体化、数据一体化、架构一体化、流程一体化这四个主要方向;提供统一入口、可扩展、可复用、
21、可组装的一体化架构。总总结结统一并建立核心数据/权限模型,实现平台数据打通,保证数据一致性数据一体化设计一体化的技术架构,实现可复用的可组装的平台技术架构架构一体化针对用户端到端场景,设计连续的业务流程,打通各组件模块,实现一体化的流程流程一体化提供一致的连续的用户界面使用体验体验一体化GenAI智能运维应用实践经验 工程落地AI场景追踪看板模型调用看板RAG在AIOps领域遇到的挑战与解决方案模型的过度生成 大多数内部用户的查询都是直接且精确的,这需要基于搜索的答案,而不是由LLM进行复杂的创造。术语理解差 无法正确理解企业内部的专用术语或者运维行业术语,细分行业知识。无法提供用户满意答复
22、尽管检索了相关的数据,RAG的生成可能在提供全面、精确和有益的答案方面仍有不足。挑战问题描述 优先进行RAG入口的意图识别;利用基于场景的路由,匹配知识库;使用单一任务学习模型(SLMs)实现准确响应。开发一个针对运维专业术语和缩写的领域词汇表,作为全局知识,以提高模型在输入和检索中的理解能力。扩充知识库,加强与已有知识资源的集成;提升模型能力,减少模型制约:如超大文档;提升用户查询方法。解决方案 提示词工程 事实审查机制企业的敏感话题 对公司品牌、形象和高管话题的不准确回应可能导致危机。在公司层面建立一个包含标准化回应的敏感话题资料库。知识管理 模型微调 增加LLM输入、输出护栏 模型微调
23、工具调用 知识图谱 构建用户反馈机制其他手段信息呈现与理解 图表和附图解读难、分段信息乱 通过大模型和OCR,提取文档附图和表格的关键信息;配合文档元数据解析,配合专用的布局分析模型,实现文档结构的准确理解。多模态大模型智能体在AIOps领域遇到的挑战与解决方案工具类型通用型专用型AI工具应用系统三方工具智能体应用的体验和准确性差;在“可玩”和“可用”间存在差距。大模型智能体在与人类主导的决策和控制能力存在差距,正确调整业务预期。场景化的提示工程和意图理解,不存在一个提示工程机制适用于所有业务场景;收敛智能体任务边界,任务类型单一,指令明确;限制智能体的自主选择环节,减少可用工具的数量和自助迭
24、代的轮数;构建自动化的智能体应用评估体系。缺乏有效的运维工具接入 加强一体化设计,自研智能运维平台接口的自动注册;对于行业运维平台,集成适配,简单配置,自动拉取相应工具。问题描述解决方案GenAI智能运维应用展望AI智能体AI在设定的目标和权限内规划和执行任务,人类在出现异常时进行干预。嵌入模式AI提供分析和知识问答能力,协助业务决策制定。AI助理模式AI参与业务流程,替代一些手工工作。人类设定任务目标某几个任务,AI提供建议或者信息人类自主结束工作人类设定任务目标其他某几个流程,AI完成人类修改调整确定人类自主结束工作AI自主结束工作任务拆解工具选择进度控制AI完全代理设立目标提供资源监督结果随着GenAI的发展,应用场景将逐渐从嵌入模式,助理模式升级到智能体模式,IT运营智能体将助力企业实现智能卓越运营企业IT运营智能体THANKS