当前位置:首页 > 报告详情

A3--黄焱--B站故障演练平台实践.pdf

上传人: 2*** 编号:152043 2024-01-05 41页 29.59MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了B站混沌工程实践,包括故障演练的实现方式和自动化流程。核心内容包括: 1. 故障演练的实现方式:通过在分布式系统生产环境进行实验,主动找出系统中的脆弱环节。 2. 背景:云原生架构下,微服务数量爆炸式增长,服务间调用关系错综复杂,对系统可靠性提出更高要求。 3. 发展历程:从故障演练的起步探索到优化设计,B站逐步完善故障演练平台。 4. 故障演练的关键点: - 故障注入:支持多种类型的故障注入,如HTTP Server、gRPC Server、数据库等。 - 爆炸半径控制:通过实例粒度、请求粒度和靶点粒度控制故障的影响范围。 - 依赖采集:自动化收集服务间的依赖关系,提高故障演练的效率。 - 演练自动化:通过接口自动化和UI自动化,将故障演练集成到CI流程中,提高效率。 综上,B站通过混沌工程实践,不断优化故障演练方式,提高系统可靠性。
故障演练如何实现依赖自动采集? 如何控制故障演练的爆炸半径? 故障演练自动化有哪些实践方法?
客服
商务合作
小程序
服务号
折叠