《FFA2024分论坛-Data+AI.pdf》由会员分享,可在线阅读,更多相关《FFA2024分论坛-Data+AI.pdf(173页珍藏版)》请在三个皮匠报告上搜索。
1、LLM技术在B站大规模Flink运维中的探索与实践张勋祥哔哩哔哩资深开发工程师背景解决方案实践成果未来展望背景业务规模6500+Jobs20W+Cores25+Consults集群规模作业规模咨询量/周760T+Memory内存规模运维问题实时研发代码编写、资源配置、调试实时运维性能优化实时告警Checkpoint失败告警、断流告警、作业失败告警用户问题涉及开发、调试、运维各过程告警后需人工干预,定位困难分析过程需结合日志、监控、指标等问题需要用户补充背景才能理解多个方面需要提供基础能力用户问题往往包含多个子问题问题呈现形式:文字、文字+图片、文字+链接可能涉及多个方面分析多方面反馈的结果需加
2、工、过滤和关联运维特点问题多样根因复杂门槛高Flink使用姿势、原理等涉及繁杂支持丰富的connector、业务链路多业务要求高高吞吐、低延迟、低checkpoint失败率解决方案Flink运维平台演进Flink运维平台 1.0围绕Flink进行基础能力建设重点解决:数据源、场景痛点、及时触达Flink运维平台 2.0针对复杂运维场景突破重点解决:用户咨询的自动化解答和复杂运维问题的自动化分析Flink运维平台 1.0核心目标:接入各类数据源,满足分析必要条件 解决业务的核心痛点,优先落地重要场景 完善监控告警机制,及时有效触达用户 扩展并解决更多场景平台架构资源调优作业诊断健康分接口层业务逻
3、辑层调度层调度器数据源元仓数据引擎指标数据作业日志日志诊断匹配根因分析规则指标诊断选择执行解析检测资源调优计划执行分析问题节点自愈分析执行收集容量评估机器异常巡检.日志诊断作业失败规则告警转发匹配根因分析l 90+规则l AND/OR 组合匹配l 优先级排序l 不同场景分类分析l 结合相关因素分析l 通知群/用户/SRELLM归纳总结多数据源组合分析指标诊断BackPressureSymptomHighCpuSymptomHighMemorySymptomDataSkewSymptomBackPressureDetectorHighCpuDetectorHighMemoryDetectorDa
4、taSkewDetectorDataDelayResolverMemoryResolverSelectorSymptomsActionExecutorCandidates资源调优指标流量信息Cpu UsageThrottleMemoryUsageGCCheckpointThroughput外部系统延迟并行度调整Kafka TP扩容资源配置优化问题节点自愈慢节点定位故障节点定位节点自愈采集作业LatencyMark指标计算Operator维度的延迟指标统计段时间内Operaptor指标计算ZScore通过Operator与Container之间的映射关系,给Container投票数据倾斜?Con
5、tainer票数过半?结束是否否是统计段时间内各作业TM失联信息获取TM失联所在机器指标信息获取当前机器上作业个数作业失败个数是否超过阈值/机器核异常?结束机器故障是否节点异常判断类型节点不可调度结束机器下线卸载磁盘挂载磁盘更改磁盘权限重设K8sLabel节点设为可调度慢节点故障节点加名单慢节点不足点缺乏手段自动化回答用户咨询的问题作业运行时异常根因分析依然以人工为主Flink运维平台 2.0核心目标:实现部分用户咨询场景运维自动化 加强和完善根因分析能力平台架构QueryAnswerRouterAgentFlinkConsultAgentJobInterruptionAgentJobStac
6、kingAgentJobCheckpointAgentQuery UnderstandEmbeddingRerankSummary(LLM)chunks#1-#2-#n-rerankedchunks#3 -#50 -#89 -Planing(LLM)Function ToolsExecuteCode(LLM)Test(LLM)xxxConsultAgentParse&SplitterVectorization(Embedding)ESMachineFaultAgentFunction Tools私域知识库基于Advanced RAG范式构建私域知识库架构图文件上传自定义文件上传删除无关信息文件