《刘明刚-B站一站式大数据集群管理平台.pdf》由会员分享,可在线阅读,更多相关《刘明刚-B站一站式大数据集群管理平台.pdf(32页珍藏版)》请在三个皮匠报告上搜索。
1、DataFunSummitDataFunSummit#20242024B站一站式大数据集群管理平台(BMR)刘明刚/资深工程师背景介绍元仓建设集群管理智能运维定制化Manager目录未来展望01背景介绍l 业务快速增长l 大数据规模和复杂度显著增加l 服务器数突增到5,000+l 通用平台无法满足需求BMR的诞生2021l 50+服务组件l 10,000+台服务器l EB级别的存储l 百万核的计算资源BMR 孕育而生BMR 走向成熟20202024l Ansiblel Relayl Riderl FalconBMR发展阶段阶段一:求生存阶段二:追温饱阶段三:奔小康阶段四:共富裕l 聚焦环境、配
2、置标准化l 满足核心组件的快速发布l 建设元仓、沉淀数据l 服务组件全面覆盖l 场景化建设l 拥抱云原生、扩展容器化管理能力l 元仓应用l 智能运维(巡检平台、故障自愈)l 智能运维升级(故障预测、智能问答)l 定制化ManagerBMR-产品蓝图l 迭代?安全变更?高效稳定用BMR,构建、发布、验收 一站式l 查问题?高效稳定用BMR,预警、诊断、自愈、定位 一站式l 资源不够?降本稳定用BMR,Quota、用量 清晰透明 一站式稳定效率成本02集群管理BMR-集群管理50+每天变更数10,000+变更关联主机快&稳BMR-集群管理基本能力集群、服务、配置、安装包管理BMR-集群管理常见操作
3、扩容、缩容、重启、升级等迭代操作核心能力(高效&安全生产)l可视化流程编辑能力l安全变更、变更防御l服务优雅的下线l自动适配异构机器/环境l节点、服务生命周期管理l跨组件依赖管理BMR-集群管理降本利器-潮汐混部l 错峰出行l 弹性伸缩l 分级保障1,000+节省机器数60,000+总核数收益显著03元仓建设BMR-元仓建设元仓业务元数据故障数据黄金指标l数据互通l元数据一致性l历史回放BMR-元仓应用概览一眼看尽“黄金指标”SLO性能&稳定性“晴雨表”容量/Quota管理资源合理“动起来”BMR-主机诊断l 覆盖100+硬件故障、异常日志、异常监控指标l 当前故障、历史故障一目了然l 故障趋
4、势清晰可见元仓应用-任务诊断沉淀20+诊断类型l 失败分析l 耗时分析l 报错分析l 资源分析l 效率分析04智能运维BMR-智能运维集群规模大服务管理复杂故障排查难主机数量 10,000+磁盘数量 200,000+服务组件 50+混部组件多机器/环境异构组件相互依赖故障发现滞后故障处理速度慢BMR-智能运维l巡检系统:主动发现风险,自助诊断l故障自愈:智能分析诊断,故障自动恢复l智能问答:让真相直达用户巡检平台-应用场景已知风险主动探查紧急风险快速响应l 主机硬件故障l 操作系统风险l 核心配置错误l 组件部署不符合预期巡检平台-产品能力l 巡检项管理 内置10+个巡检项 巡检项快速创建、修
5、改、删除l 巡检任务类型 即时任务 期性巡检任务 定时巡检任务l 巡检对象 自定义机器 服务、集群、组件l 巡检结果订阅和告警故障自愈-变被动为主动及时性智能化可分析l及时发现l快速处理l减少故障时间l利用元仓数据进行智能诊断分析l结合业务无损/少损修复l减少大量繁重和重复的工作l故障预测,提前消灭风险故障自愈-产品能力l 磁盘故障、性能下降、寿命耗尽l IO Hang住l 服务异常智能问答-直达用户利用元仓数据+LLM技术05定制化ManagerBMR-定制化Managerl Flink Manager Flink 任务管理 Flink 版本管理 模板管理 节点管理 测试管理l Kafka
6、Manager Topic管理 集群管理 工具集l Spark Manager Spark 任务管理 Spark 版本管理 Spark 迭代管理 测试管理高效变更安全变更差异化需求BMR-Flink Manager7,000+flink任务90+每周变更次数3,000+主机数110+任务模版数量灰度变更精确到任务变更防御前置检查、后置检查BMR-Kafka Manager10,000+Topic数40+Kafka集群数2,000+主机数数年沉淀形成工具矩阵lTopic 管理T