当前位置:首页 > 报告详情

张伟伟-货拉拉基于混合云的大数据SRE体系建设实践.pdf

上传人: 2*** 编号:122014 2023-04-04 44页 12.66MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了货拉拉基于混合云的大数据SRE体系建设实践。大数据SRE负责人张伟伟分享了他们在构建稳定性保障、自动化运维体系、成本控制等方面的经验。大数据SRE体系建设分为成长期和成熟期,其中成长期面临业务高速增长、运维方式原始、易出故障等挑战,而成熟期则致力于实现全量核心场景的监控告警、自动化运维、基础设施一致性能力建设。 关键点如下: 1. 货拉拉介导8+业务线,覆盖360国内城市,拥有68万月活司机和10PB+存储量。 2. 大数据SRE体系建设目标:驱动业务数智化,助力公司业务持续增长。 3. 成长期面临挑战:无监控告警、监控指标不全、多套DC没有统一监控能力。 4. 成熟期建设:完成脚本化改造,建立基础运维环境一致性,实现自动化运维和成本控制。 5. 稳定性保障:制定运维规范,实现稳定性验收、功能和性能验收、可回滚、发布后oncall等流程。 6. 自动化建设:实现运维工作流编排功能、组件管理模块、监控告警模块等,提升基础运维效率100%。 7. 智能化脚本化:进行脚本化改造,减少手动操作,降低故障率。 最后,张伟伟思考了大数据SRE团队职责边界和全面上云时代大数据SRE的角色,提出了大数据智能化运维体系和全场景稳定性建设的规划。
如何实现大数据领域的稳定性和高效运维? 在混合云环境下,如何构建稳定的大数据SRE体系? 如何评估和提升大数据全场景稳定性,以满足业务高质量增长的需求?
客服
商务合作
小程序
服务号
折叠