当前位置:首页 > 报告详情

2-张庆先-大型通讯软件可靠性工程实践.pdf

上传人: 2*** 编号:151928 2024-01-05 40页 5.78MB

1、大型通讯软件可靠性工程实践张庆先张庆先二十年软件研发和项目管理经验中兴通讯质量专家和敏捷专家现任过程质量改进教练目录CONTENTS软件可靠性的底层逻辑01 大型通讯软件维测现状02 软件可靠性与维测正向设计融合方法论03 大型通讯软件维测正向设计实践与收益04 总结与展望05 01软件可靠性的底层逻辑2022年全球著名企业软件质量事故月份公司事件原因1IBM达拉斯地区的云服务宕机时间大约五个小时,次日虚拟私有云产品亦出现问题,持续大约一个小时,影响华盛顿特区的用户和日本。2英国航空在线服务中断了几个小时,导致数百个航班取消,影响波及全球,并中断了航空公司的运营。应用服务器存在单点失效。3Go

2、ogleTraffic Director工具的用户经历了“2小时35分钟的严重服务错误”,Spotify、Discord等服务受到了这次宕机的影响。代码更改假设配置数据格式迁移已经完全完成,但实际数据迁移尚未完成。4Atlassian用户无法访问Jira、OpsGenie、Confluence和其他Atlassian云服务,始于4月5日,部分客户在4月8日之前恢复了服务,而有些客户直到4月18日才恢复。5SpotifySpotify博客宕机,持续了8小时,播客听众无法访问平台过期的安全证书。6微软部分用户在连接位于弗吉尼亚州的美国东部地区的资源时遇到了问题。这次宕机影响了应用程序洞察、日志分析

3、、托管身份服务、媒体服务和NetApp文件,造成了延迟、登录失败和访问账户的问题。该问题持续了大约12个小时。冗余电力系统的组件产生了意外的电气瞬变,导致空气处理单元(ahu)检测到潜在的故障后自动关闭。7Rogers一次拙劣的维护更新导致Rogers Communications的网络在加拿大范围内长时间不能正常工作。这次宕机影响了大约1200万客户的电话和互联网服务,并阻碍了全国各地的许多关键服务,包括银行交易、政府服务和应急响应能力。外部BGP路由的退出可能是由内部路由问题引起的。8Google短暂的宕机影响了谷歌搜索和谷歌地图,全球用户无法使用这些广泛使用的谷歌服务约一个小时。试图访问

4、这些服务会导致来自谷歌边缘服务器的错误消息。根本原因是软件更新出错。9Zoom全球用户出现了502(Bad gateway)错误,用户无法登录或加入会议,在某些情况下,已经参加会议的用户会被踢出会议。这次事故波及美国波士顿、纽约市、华盛顿特区和旧金山等地区的用户,历史2小时。10WhatsApp发生了两小时的宕机,导致用户无法在平台上发送或接收消息。事故发生在印度的高峰时段,该应用在印度拥有数亿用户。与后端应用程序服务故障有关,而不是网络故障。Gartner 2023年十大战略技术趋势中提到的数字免疫系统(DIS),结合了可观察性、AI增强测试、混沌工程、自修复、站点可靠性工程和软件供应链安全

5、等实践和技术。从软件可靠性定义谈起在规定条件下、规定时间内,软件不引起系统失效的概率1、软件运行的软硬件环境2、软件输入操作空间及概率分布1、日历时间(自然时间)2、时钟时间(开始执行到结束)3、CPU时间(CPU执行时间)软件系统运行行为与用户需求的偏离失效发生可能性的度量常用指标:MTTF(平均无故障时间)系统无故障运行的平均时间MTTR(平均修复时间)系统从发生故障到维修结束之间的时间段的平均值MTBF(平均失效间隔)指系统两次故障发生时间之间的时间段的平均值可用性系统正常使用的时间占比,A=(MTBF-MTTR)/MTBF指标计算结果(以年为单位)1个9:90%(1-90%)*365=

6、36.5天2个9:99%(1-99%)*365=3.65天3个9:99.9%(1-99.9%)*365*24=8.76小时4个9:99.99%(1-99.99%)*365*24=52.6分钟5个9:99.999%(1-99.999%)*365*24*60=5.26分钟6个9:99.9999%(1-99.9999%)*365*24*60*60=32秒GB/T 11457-1995 软件工程术语软件失效机理及应对错误研发人员产生在研发过程中缺陷内置在产品中故障引起在运行时失效用户经历的在运行时避错查错容错降低质量左移可用性级别描述年不可用时长可靠性设计方法(推荐)99%基本可用87.6h重传,降级

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了大型通讯软件可靠性工程实践,包括软件可靠性的底层逻辑、大型通讯软件维测现状、软件可靠性与维测正向设计融合方法论、大型通讯软件维测正向设计实践与收益以及总结与展望。 1. 软件可靠性是指在规定条件下、规定时间内,软件不引起系统失效的概率。常用指标包括MTTF(平均无故障时间)、MTTR(平均修复时间)和MTBF(平均失效间隔)。 2. 大型通讯软件维测现状面临诸多挑战,如复杂数据场景中定位定界有效率如何提升、维测数据如何统一模型等。 3. 软件可靠性与维测正向设计融合方法论包括基于已知故障的设计和基于已知故障的维测设计。正向设计强调在系统设计阶段就考虑维护和测试需求。 4. 大型通讯软件维测正向设计实践与收益包括需求分析、功能分析、失效分析、风险分析和维测举措及落地。实践表明,维测正向设计可以提高系统可维护性和可测试性,减少故障和缺陷,提高开发效率。 5. 总结与展望部分提出了维测正向设计的思考,包括功能的因果关系是失效的因果关系等效、依赖关系的数字化以及Tracing是数据的链接纽带。
软件可靠性如何提升? 维测正向设计有哪些优势? 维测正向设计如何实践?
客服
商务合作
小程序
服务号
折叠