1、20EB+:大规模HDFS存储运维实践张康 大数据存储SRE负责人19年加入字节,目前在字节跳动负责大数据存储、块存储及文件存储方向SRE运维管理工作,专注方向为大规模分布式存储场景下的稳定性体系、成本优化、平台效率及业务运营字节跳动HDFS架构及生态大规模HDFS运维挑战大规模HDFS运维实践未来展望字节跳动HDFS架构及生态字节跳动HDFS发展历程阶段一:基于开源HDFS做定制化阶段二:上线自研DancenNN单集群节点:5W+单集群数据量:6EB+三机房架构阶段三:全面支持近在线业务单集群节点:15W+单集群数据量:20EB+多机房架构字节跳动HDFS架构mysqlredisDFS Cl
2、ientDN 1DN 2DN nDN 3zkzkzknnproxynnproxynnproxybkbkbkMount tableelecteditlogActiveStandbyzkfczkfcobserverActiveStandbyzkfczkfcobserverQuata及限流、白名单Quota统计quota基线配置Federation ADataNodeseditlogFederation BNameNodesBk元数据,如ledger、edits、bookie等NNProxy层为联邦集群提供全局统一的目录视图限流/熔断/权限/Quota元数据层DanceNN,C+版本namenode
3、BooKeeper,共享的editlog存储数据层Datanode,数据存储多BP存储池模式字节跳动HDFS业务生态HDFS 在离线调度系统Godel(YARN)MRSparkHiveFlinkBMQHbaseclickhouse广告数据平台AML推荐电商datanodedatanodedatanodedatanode机房-1机房-2机房-3机房-4离线场景OLAP 查询引擎存储底座,包括Hive/Spark/ClickHouse/Presto 等场景机器学习离线训练数据,包括Arnold/Primus等场景近在线场景BMQ 近离线消息队列存储底座Flink 流式任务Checkpoint/业务
4、实时数仓Clickhouse风神实时查询Priimus大规模HDFS运维挑战大规模分布式HDFS的运维挑战稳定性及智能化运维多机房架构及容量治理业务治理成本优化超大规模集群,需要构建运维智能化,基于数据来驱动运维效率的提升,同时洞察局部热点及毛刺问题数据倾斜数据放置/数据迁移/数据容灾跨机房带宽海量小文件问题元数据膨胀及业务拆分业务预算交付及quota管理资源利用率提升数据挖掘及治理运维挑战大规模HDFS运维实践系统化-运维体系的落地高可用运维体系机房容灾监控体系巡检体系预案体系自愈数据备份故障演练变更管控自动化-运维运营平台SpaceX-Kepler落地RPC分析流量分析热度分析容量管理In
5、sight智能诊断小文件分析SLA大盘巡检大盘容量大盘告警大盘高可用大盘Kepler V2运维平台性能分析运营大盘版本大盘1.元数据管理2.流控管理3.路由管理nnproxy1.元数据管理2.集群管理BK1.元数据管理2.运维操作3.Copyset管理DN1.元数据管理2.运维操作NN1.主机管理2.模板管理3.备机管理4.混部管理CMDB1.规则管理2.巡检执行3.监控对接Inspect1.BFC管理2.预案管理3.预案配置Preplan1.包管理2.日常运维3.发布升级DEPS1.消息通知2.操作进度3.运维公告BOTHDFS组件运维体系1.自动重启2.自动切主3.自动降级Heal基础能力
6、资源组管理数据管理增长分析TTL管理存储策略小文件合并误删恢复限流查询路径认领数据冷热业务运营预算管理成本管理增长预测用户管理权限管理工单管理用户平台V2数据打通基础组件HeliumArgonTimetaskOpstaskThrallAuditlDEVSRETAOGalaxySCMSSOTCEArgosAeolus组件依赖广告成本分析数据化-Data Insight体系落地-构建初衷 业务分类 业务使用姿势 业务行为 业务负载 业务增长趋势业务画像 集群负载 分机房负载 单机负载 QPS集群负载 业务增长趋势 业务