张康-字节跳动大规模HDFS存储运维实践_v1.1.pdf

编号:122041 PDF 23页 7.43MB 下载积分:VIP专享
下载报告请您先登录!

张康-字节跳动大规模HDFS存储运维实践_v1.1.pdf

1、20EB+:大规模HDFS存储运维实践张康 大数据存储SRE负责人19年加入字节,目前在字节跳动负责大数据存储、块存储及文件存储方向SRE运维管理工作,专注方向为大规模分布式存储场景下的稳定性体系、成本优化、平台效率及业务运营字节跳动HDFS架构及生态大规模HDFS运维挑战大规模HDFS运维实践未来展望字节跳动HDFS架构及生态字节跳动HDFS发展历程阶段一:基于开源HDFS做定制化阶段二:上线自研DancenNN单集群节点:5W+单集群数据量:6EB+三机房架构阶段三:全面支持近在线业务单集群节点:15W+单集群数据量:20EB+多机房架构字节跳动HDFS架构mysqlredisDFS Cl

2、ientDN 1DN 2DN nDN 3zkzkzknnproxynnproxynnproxybkbkbkMount tableelecteditlogActiveStandbyzkfczkfcobserverActiveStandbyzkfczkfcobserverQuata及限流、白名单Quota统计quota基线配置Federation ADataNodeseditlogFederation BNameNodesBk元数据,如ledger、edits、bookie等NNProxy层为联邦集群提供全局统一的目录视图限流/熔断/权限/Quota元数据层DanceNN,C+版本namenode

3、BooKeeper,共享的editlog存储数据层Datanode,数据存储多BP存储池模式字节跳动HDFS业务生态HDFS 在离线调度系统Godel(YARN)MRSparkHiveFlinkBMQHbaseclickhouse广告数据平台AML推荐电商datanodedatanodedatanodedatanode机房-1机房-2机房-3机房-4离线场景OLAP 查询引擎存储底座,包括Hive/Spark/ClickHouse/Presto 等场景机器学习离线训练数据,包括Arnold/Primus等场景近在线场景BMQ 近离线消息队列存储底座Flink 流式任务Checkpoint/业务

4、实时数仓Clickhouse风神实时查询Priimus大规模HDFS运维挑战大规模分布式HDFS的运维挑战稳定性及智能化运维多机房架构及容量治理业务治理成本优化超大规模集群,需要构建运维智能化,基于数据来驱动运维效率的提升,同时洞察局部热点及毛刺问题数据倾斜数据放置/数据迁移/数据容灾跨机房带宽海量小文件问题元数据膨胀及业务拆分业务预算交付及quota管理资源利用率提升数据挖掘及治理运维挑战大规模HDFS运维实践系统化-运维体系的落地高可用运维体系机房容灾监控体系巡检体系预案体系自愈数据备份故障演练变更管控自动化-运维运营平台SpaceX-Kepler落地RPC分析流量分析热度分析容量管理In

5、sight智能诊断小文件分析SLA大盘巡检大盘容量大盘告警大盘高可用大盘Kepler V2运维平台性能分析运营大盘版本大盘1.元数据管理2.流控管理3.路由管理nnproxy1.元数据管理2.集群管理BK1.元数据管理2.运维操作3.Copyset管理DN1.元数据管理2.运维操作NN1.主机管理2.模板管理3.备机管理4.混部管理CMDB1.规则管理2.巡检执行3.监控对接Inspect1.BFC管理2.预案管理3.预案配置Preplan1.包管理2.日常运维3.发布升级DEPS1.消息通知2.操作进度3.运维公告BOTHDFS组件运维体系1.自动重启2.自动切主3.自动降级Heal基础能力

6、资源组管理数据管理增长分析TTL管理存储策略小文件合并误删恢复限流查询路径认领数据冷热业务运营预算管理成本管理增长预测用户管理权限管理工单管理用户平台V2数据打通基础组件HeliumArgonTimetaskOpstaskThrallAuditlDEVSRETAOGalaxySCMSSOTCEArgosAeolus组件依赖广告成本分析数据化-Data Insight体系落地-构建初衷 业务分类 业务使用姿势 业务行为 业务负载 业务增长趋势业务画像 集群负载 分机房负载 单机负载 QPS集群负载 业务增长趋势 业务

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(张康-字节跳动大规模HDFS存储运维实践_v1.1.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠