2-张庆先-大型通讯软件可靠性工程实践.pdf-三个皮匠报告

1、大型通讯软件可靠性工程实践张庆先张庆先二十年软件研发和项目管理经验中兴通讯质量专家和敏捷专家现任过程质量改进教练目录CONTENTS软件可靠性的底层逻辑01 大型通讯软件维测现状02 软件可靠性与维测正向设计融合方法论03 大型通讯软件维测正向设计实践与收益04 总结与展望05 01软件可靠性的底层逻辑2022年全球著名企业软件质量事故月份公司事件原因1IBM达拉斯地区的云服务宕机时间大约五个小时，次日虚拟私有云产品亦出现问题，持续大约一个小时，影响华盛顿特区的用户和日本。2英国航空在线服务中断了几个小时，导致数百个航班取消，影响波及全球，并中断了航空公司的运营。应用服务器存在单点失效。3Go

2、ogleTraffic Director工具的用户经历了“2小时35分钟的严重服务错误”，Spotify、Discord等服务受到了这次宕机的影响。代码更改假设配置数据格式迁移已经完全完成，但实际数据迁移尚未完成。4Atlassian用户无法访问Jira、OpsGenie、Confluence和其他Atlassian云服务，始于4月5日，部分客户在4月8日之前恢复了服务，而有些客户直到4月18日才恢复。5SpotifySpotify博客宕机，持续了8小时，播客听众无法访问平台过期的安全证书。6微软部分用户在连接位于弗吉尼亚州的美国东部地区的资源时遇到了问题。这次宕机影响了应用程序洞察、日志分析

3、、托管身份服务、媒体服务和NetApp文件，造成了延迟、登录失败和访问账户的问题。该问题持续了大约12个小时。冗余电力系统的组件产生了意外的电气瞬变，导致空气处理单元(ahu)检测到潜在的故障后自动关闭。7Rogers一次拙劣的维护更新导致Rogers Communications的网络在加拿大范围内长时间不能正常工作。这次宕机影响了大约1200万客户的电话和互联网服务，并阻碍了全国各地的许多关键服务，包括银行交易、政府服务和应急响应能力。外部BGP路由的退出可能是由内部路由问题引起的。8Google短暂的宕机影响了谷歌搜索和谷歌地图，全球用户无法使用这些广泛使用的谷歌服务约一个小时。试图访问

4、这些服务会导致来自谷歌边缘服务器的错误消息。根本原因是软件更新出错。9Zoom全球用户出现了502（Bad gateway）错误，用户无法登录或加入会议，在某些情况下，已经参加会议的用户会被踢出会议。这次事故波及美国波士顿、纽约市、华盛顿特区和旧金山等地区的用户，历史2小时。10WhatsApp发生了两小时的宕机，导致用户无法在平台上发送或接收消息。事故发生在印度的高峰时段，该应用在印度拥有数亿用户。与后端应用程序服务故障有关，而不是网络故障。Gartner 2023年十大战略技术趋势中提到的数字免疫系统（DIS），结合了可观察性、AI增强测试、混沌工程、自修复、站点可靠性工程和软件供应链安全

5、等实践和技术。从软件可靠性定义谈起在规定条件下、规定时间内，软件不引起系统失效的概率1、软件运行的软硬件环境2、软件输入操作空间及概率分布1、日历时间（自然时间）2、时钟时间（开始执行到结束）3、CPU时间（CPU执行时间）软件系统运行行为与用户需求的偏离失效发生可能性的度量常用指标：MTTF(平均无故障时间)系统无故障运行的平均时间MTTR(平均修复时间)系统从发生故障到维修结束之间的时间段的平均值MTBF(平均失效间隔)指系统两次故障发生时间之间的时间段的平均值可用性系统正常使用的时间占比，A=(MTBF-MTTR)/MTBF指标计算结果（以年为单位）1个9：90%(1-90%)*365=

6、36.5天2个9：99%(1-99%)*365=3.65天3个9：99.9%(1-99.9%)*365*24=8.76小时4个9：99.99%(1-99.99%)*365*24=52.6分钟5个9：99.999%(1-99.999%)*365*24*60=5.26分钟6个9：99.9999%(1-99.9999%)*365*24*60*60=32秒GB/T 11457-1995 软件工程术语软件失效机理及应对错误研发人员产生在研发过程中缺陷内置在产品中故障引起在运行时失效用户经历的在运行时避错查错容错降低质量左移可用性级别描述年不可用时长可靠性设计方法（推荐）99%基本可用87.6h重传，降级

2-张庆先-大型通讯软件可靠性工程实践.pdf

相关报告