张伟伟-货拉拉基于混合云的大数据SRE体系建设实践.pdf

编号:122014 PDF 44页 12.66MB 下载积分:VIP专享
下载报告请您先登录!

张伟伟-货拉拉基于混合云的大数据SRE体系建设实践.pdf

1、货拉拉基于混合云的大数据SRE体系建设实践张伟伟 大数据SRE负责人深圳依时货拉拉科技有限公司大数据SRE负责人,负责大规模大数据集群和相关生态系统的稳定性保障,以及参与大数据安全体系建设、成本控制等方向的工作,有多年的跨云架构体系经验大数据SRE体系建设-成熟期背景和挑战大数据SRE体系建设-成长期后续规划背景和挑战货拉拉介绍8+业务线360国内城市68万月活司机3+IDC20K+日均任务数1000+机器数10PB+存储量950万月活用户*注:2022年12月份公开数据货拉拉大数据大数据使命:驱动业务数智化,助力公司业务持续增长货拉拉大数据大数据跨云架构在线/实时离线大数据SRE体系建设-成

2、长期大数据SRE体系建设2021202220232024 脚本化改造 基础设施环境一致性成长期成熟期领先期业务高速增长l基础设施维护l稳定性 运维规范 监控告警体系 自动化运维体系 成本控制 大数据链路稳定性(实时/离线)基础设施安全治理 智能运维体系 大数据全场景稳定性业务高质量增长背景和挑战-无监控告警01核心组件挂了无感知,上游出问题才发现02监控指标不全,核心指标缺失03多套DC没有统一的监控能力背景和挑战-运维方式原始DC/集群/节点数量多手动操作多01集群节点数量增长三倍,并且新增了多个DC业务增长快02大部分操作流程为手动,集群搭建耗时1天,扩容半天手动操作多03背景和挑战-易出

3、故障01开源组件15+,维护复杂度高02多个DC以及环境的核心指标参数未统一03无发布变更规范,无运维SOP,发布故障率近100%大数据SRE体系建设做监控标准化定规范一致性建设大数据侧监控告警体系,基础设施问题100%通过监控告警系统发现并预警根据不同组件、场景,梳理定义SOP,严格按照SOP发布制定大数据基础架构变更规范,变更有法可依线上不同组件机型、参数、配置一致性保障建设历程监控告警体系建设核心业务接入率提升至100%,线上问题接近100%由监控告警提前发现扩展性可以满足未来2年的业务增长需求脚本化建设高频操作脚本化改造,告别手敲命令脚本化ansible-playbook编排运维脚本流

4、程编排SOP化梳理定义50+基础运维SOP,覆盖线上基础设施发布变更场景基础设施环境一致性机器OS参数统一内核参数统一机器镜像内容统一yum源核心组件参数队列配置、超卖比例等资源参数container size等计算引擎参数机型标准化分场景定义对应标准云主机机型,1:4、1:8等不同机型对应配置标准化稳定性保障-运维规范1.业务低峰期,非节假日前1天2.离线14-18点,在线/实时20-24点发布窗口1.非标准附加详细命令2.通知对应业务方和值班人员发布内容和用户通知1.稳定性验收2.功能和性能验收3.可回滚、发布后oncall发布验收1.日常审核,变更数量限制2.节假日封版,紧急变更流程3.

5、审核规范执行情况发布审核 70%故障来源于发布和变更:没有变更就没有“伤害”发布变更窗口大数据SRE体系建设-小结01大数据监控告警体系建设完成,覆盖全量核心场景03运维导致的频繁故障风险解除,变更可控,标准化、规范化02大数据基础设施一致性能力建设完成“从无到有”大数据SRE体系建设-成熟期大数据SRE体系建设2021202220232024 脚本化改造 基础设施环境一致性成长期成熟期领先期业务高速增长l基础设施维护l稳定性 运维规范 监控告警体系 自动化运维体系 成本控制 大数据链路稳定性(实时/离线)基础设施安全治理 智能运维体系 大数据全场景稳定性业务高质量增长背景和挑战01大数据领域

6、下场景的多样性(在线/实时/离线)02大数据领域下稳定性保障的特殊性03业务高速增长与运维效率低下之间的矛盾背景和挑战-场景多样性大数据实时+离线数据链路背景和挑战-特殊性稳定性保障 保障目标场景价值稳定性矛盾保障目标数据采集和存储数据存储可靠性是大数据的生命线数据丢失数据可靠性100%离线核心数据链路和报表高管/运营团队日常决策首要依据数据延迟核心数据链路产出时间早于6点数据准确性业务支持和数据赋能的基础离线、实时报表数据错误核心数据准确性100%大数据核心产品数据研发、数据应用等大数据能力输出稳定性、出现过大面积长时间不可用故障可用性=99.9%单次不可用时间=99.95%单次不可用时间=

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(张伟伟-货拉拉基于混合云的大数据SRE体系建设实践.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠