FFA2024分论坛-Data+AI.pdf

编号:184576 PDF 173页 31.91MB 下载积分:VIP专享
下载报告请您先登录!

FFA2024分论坛-Data+AI.pdf

1、LLM技术在B站大规模Flink运维中的探索与实践张勋祥哔哩哔哩资深开发工程师背景解决方案实践成果未来展望背景业务规模6500+Jobs20W+Cores25+Consults集群规模作业规模咨询量/周760T+Memory内存规模运维问题实时研发代码编写、资源配置、调试实时运维性能优化实时告警Checkpoint失败告警、断流告警、作业失败告警用户问题涉及开发、调试、运维各过程告警后需人工干预,定位困难分析过程需结合日志、监控、指标等问题需要用户补充背景才能理解多个方面需要提供基础能力用户问题往往包含多个子问题问题呈现形式:文字、文字+图片、文字+链接可能涉及多个方面分析多方面反馈的结果需加

2、工、过滤和关联运维特点问题多样根因复杂门槛高Flink使用姿势、原理等涉及繁杂支持丰富的connector、业务链路多业务要求高高吞吐、低延迟、低checkpoint失败率解决方案Flink运维平台演进Flink运维平台 1.0围绕Flink进行基础能力建设重点解决:数据源、场景痛点、及时触达Flink运维平台 2.0针对复杂运维场景突破重点解决:用户咨询的自动化解答和复杂运维问题的自动化分析Flink运维平台 1.0核心目标:接入各类数据源,满足分析必要条件 解决业务的核心痛点,优先落地重要场景 完善监控告警机制,及时有效触达用户 扩展并解决更多场景平台架构资源调优作业诊断健康分接口层业务逻

3、辑层调度层调度器数据源元仓数据引擎指标数据作业日志日志诊断匹配根因分析规则指标诊断选择执行解析检测资源调优计划执行分析问题节点自愈分析执行收集容量评估机器异常巡检.日志诊断作业失败规则告警转发匹配根因分析l 90+规则l AND/OR 组合匹配l 优先级排序l 不同场景分类分析l 结合相关因素分析l 通知群/用户/SRELLM归纳总结多数据源组合分析指标诊断BackPressureSymptomHighCpuSymptomHighMemorySymptomDataSkewSymptomBackPressureDetectorHighCpuDetectorHighMemoryDetectorDa

4、taSkewDetectorDataDelayResolverMemoryResolverSelectorSymptomsActionExecutorCandidates资源调优指标流量信息Cpu UsageThrottleMemoryUsageGCCheckpointThroughput外部系统延迟并行度调整Kafka TP扩容资源配置优化问题节点自愈慢节点定位故障节点定位节点自愈采集作业LatencyMark指标计算Operator维度的延迟指标统计段时间内Operaptor指标计算ZScore通过Operator与Container之间的映射关系,给Container投票数据倾斜?Con

5、tainer票数过半?结束是否否是统计段时间内各作业TM失联信息获取TM失联所在机器指标信息获取当前机器上作业个数作业失败个数是否超过阈值/机器核异常?结束机器故障是否节点异常判断类型节点不可调度结束机器下线卸载磁盘挂载磁盘更改磁盘权限重设K8sLabel节点设为可调度慢节点故障节点加名单慢节点不足点缺乏手段自动化回答用户咨询的问题作业运行时异常根因分析依然以人工为主Flink运维平台 2.0核心目标:实现部分用户咨询场景运维自动化 加强和完善根因分析能力平台架构QueryAnswerRouterAgentFlinkConsultAgentJobInterruptionAgentJobStac

6、kingAgentJobCheckpointAgentQuery UnderstandEmbeddingRerankSummary(LLM)chunks#1-#2-#n-rerankedchunks#3 -#50 -#89 -Planing(LLM)Function ToolsExecuteCode(LLM)Test(LLM)xxxConsultAgentParse&SplitterVectorization(Embedding)ESMachineFaultAgentFunction Tools私域知识库基于Advanced RAG范式构建私域知识库架构图文件上传自定义文件上传删除无关信息文件

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(FFA2024分论坛-Data+AI.pdf)为本站 (可不可以) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠