《周絮-AI Agent + AI Profiling构建高效智能运维双支柱.pdf》由会员分享,可在线阅读,更多相关《周絮-AI Agent + AI Profiling构建高效智能运维双支柱.pdf(29页珍藏版)》请在三个皮匠报告上搜索。
1、演讲人:周絮01020304大规模云上系统运维的特点和挑战AI Profiling+AI Agent,助力云+AI运维进化AI观测助力训推场景提升稳定性AI Agent助力提升运维效率01大规模云上系统运维的特点和挑战大规模云上运维的特点和挑战技术堆栈门槛高指标解读难运维时刻的碎片化故障定界难监控指标爆炸式增长及秒级抖动盲区与现场缺失高度依赖于Linux系统的使用和命令并且需要具有专家技能人员,需要工具可以降低运维门槛。咨询的场景,包括客户在售前对于产品的相关咨询,也包括用户在使用中对于产品操作配置的相关咨询,包括售后用户在解决问题的相关咨询。客户与阿里云:客户应用出现故障,难以排查是客户代码
2、问题还是基础设施的问题。云产品间:涉及到多云产品间的故障定位及排查,往往链路长,定位困难。降低应用的运维门槛应用自顶向下的分析深度剖析问题成因基于内核深度剖析全视角:发挥内核的全视角优势,深度分析进程间行为关联;内核行为:深度剖析内核自身,以直观、可读的形式剖析内核行为关联:实现系统指标与应用表象的关联;追踪:全链路根因追踪,覆盖应用的调用情况和延时分布;可理解:问题根因和修复建议都是应用开发者可直接理解和操作的。我是开发人员我的程序为什么卡在这?如何给用户更好体验提升运维效率AI辅助解决重复性问题知识库:通过沉淀的工单问题及操作系统知识库,匹配到重复性问题并提升自服务率;流程融入:将AI能力
3、融入到运维工作的流程中,才能发挥作用;多Agent协同:将运维能力拆分成多个领域运维问题Agent,并具备协同的能力。02AI Profiling+AI Agent,助力云+AI运维进化132132AI ProfilingAI AgentAI for Maintenance:AI 技术推动系统运维效率提升Maintenance for AI:运维为 AI 训推场景提供故障及性能定位4AI Profiling+AI Agent,助力云+AI运维进化支持主流操作系统原生支持Alibaba Cloud Linux,并扩展支持其他Linux操作系统订阅服务CentOS接管为代表的操作系统服务增强能力工
4、具SysOM运维、KeenTune调优等系统智能辅助工具智能辅助AI方案通过AI打通服务全链路,提供全新用户体验用户界面操作系统增值服务扩展组件支撑架构OpenAPI控制台OS Copilot裸金属ECS容器x86ARMOpenAPI控制台管理SysOM运维服务CentOS安全接管服务组件管理03AI观测助力训推场景提升稳定性集群健康状态观测及异常发现节点深度诊断剖析进程根因持续追踪定位偶发问题CPU/GPU融合分析定位性能瓶颈健康分体系专家工具集持续追踪技术自动化诊断04AI Agent助力提升运维效率任务型机器人传统AI大模型Agent初步外部交互能力标准化外部交互能力服务输出能力建设运维
5、流程服务形式支撑平台扁鹊(SysOM)宕机中心热补丁中心数据中台值班机器人诊断智能体诊断MCPOS 大模型工单分析管理运维产品研发运维产品维护知识库沉淀智能路由智能分析智能报告诊断智能体智能宕机分析JVM智能调优智能热修复告警分类推送版本自动升级特征识别知识库智能体GTS服务团队阿里云内部团队业务平台社区OS 大模型工单处理诊断智能体工单生成一线服务智能答疑AI分类工单流转值班关联AI打分问题复盘特征分析特征提取知识沉淀文档生成在运维工作的不同场景AI的应用运维提效通过智能命令推荐等功能提升运维效率超50%快速安装只件需在系统中安装Copilot组,即刻可使用OS Copilot高质量知识大量操作系统领域语料输送,在操作系统领域比通用大模型更准确一体化体验通过OS Copilot管理您在阿里云上的资源,享受到阿里云上一体的服务。命令辅助执行根据要求推荐命令行并可直接执行专业OS领域知识问答自然语言查询系统相关知识脚本/代码生成支持运维脚步及简单代码的生成场景化系统工具集成深度集成系统工具,覆盖系统场景