《04华为云海量规模下故障定界实践--吴振华.pdf》由会员分享,可在线阅读,更多相关《04华为云海量规模下故障定界实践--吴振华.pdf(21页珍藏版)》请在三个皮匠报告上搜索。
1、华为云海量规模下 故障快速定界实践华为云/吴振华目录可观测性的定义与挑战华为云可观测性平台设计华为云故障快速定界实践可观测性未来与展望对于一个软件工程师来讲,写代码最痛苦的事情莫过于coding on legacy,但同时又给了工程师们各种说辞:*这些代码太烂了,改起来太费劲【需要更多人】*这事做不到,因为以前系统架构问题导致的【责任不在我】*经过我的修改,现在已经好很多了,工单数量大批下降【我功劳显著】*问题在于:下一个接手这些“你”改过的代码的人其实也在重复说上述3件事情那么什么时候我们开始讨论需要把现有系统重构:*代码确实腐化到无法正常维护,或者新加一个需求代价很大*目前代码的技术架构满
2、足不了下一步业务的发展*很多特性已经下线作废,却跟有用的代码藕断丝连*业务逻辑随着发展分散到不同的应用里,界限不清*专家级的未雨绸缪,着眼未来的规划和新技术的应用*换老大了,需要立新的flagWorking on legacyWorking on legacy重构的价值重构的价值0000好书推荐好书推荐可观测性的定义与挑战效率要求更高效率要求更高系统更加复杂系统更加复杂环境动态性更强环境动态性更强上下游依赖更多上下游依赖更多开发模式开发模式系统架构系统架构部署模式部署模式基础设施基础设施可观测性为应对复杂的云上环境及分布式系统的复杂性和动态性可观测性为应对复杂的云上环境及分布式系统的复杂性和动
3、态性监控:监控:指标和日志来了解系统的状态 检测已知的故障模式(故障现象)业界主流玩家均积极跟进,已支持或即将支持该开源标准可观测性:可观测性:理解和衡量系统的内部,在由微服务构成复杂的云体系中,轻松快速从故障定位到原因主动发现主动发现排错(Degugging),即运用数据和信息去诊断故障出现的原因;剖析(Profiling),即运用数据和信息进行性能分析;依赖分析(Dependency Analysis),即运用数据信息厘清系统之前的模块,并进行关联分析。仪表盘(监控)仪表盘(监控)设备运行监测(可观测性)设备运行监测(可观测性)数据采集数据采集&接入层:接入层:关注多源数据接入便利性、采集
4、数据全面性和标准化,聚焦构筑无侵入式数据采集、开放式数据接入、标准化数据模型和统一监控元数据能力高维度时序数据实时计算高维度时序数据实时计算&存储层:存储层:高维度时序数据计算、存储、查询的性能和成本数据关联分析层:数据关联分析层:构筑模型化数据关联查询和统计分析能力智能分析层:智能分析层:实时异常检测和智能故障根因分析(AI+规则)数据展示层:数据展示层:按照不同层次模型自定义视图展示能力和监控数据探索能力可观测性平台能力层次模型可观测性平台能力层次模型0101从监控到可观测性从监控到可观测性核酸检测点检测机构疫情防控中心机场火车站餐饮/酒店移动设备密接风险预警数据支付宝/微信检测频率:1天
5、、3天;主动检测:流动性人口卡点;异常症状定义:咳嗽、发烧、呼吸困难发烧定义:37度;隔离措施:个人隔离、小区隔离、封城;风险等级:低风险、中风险、高风险公共场合准入规则:体温、X天绿码、行程码场所所码扫描:确定停滞地点基于定位的行程轨迹体温检测卡场所卡点:体温检测传染范围分析故障发现故障定级WarRoom故障定界故障恢复故障回溯故障改进华为云故障处理流程初步领域切割对比策略:策略:一、保证核酸检测的完整性和关联性;二、优化密接准确性和可操作性;三、降低新冠病毒的重症率和爆炸面;四、管控兼顾成本、民生。0202疫情防控回顾疫情防控回顾影响面分析0303三个问题三个问题个体、简单个体、简单集体、
6、复杂集体、复杂三个三个问题问题如何准确定义个体异常如何准确定义个体异常如何准确定义集体异常如何准确定义集体异常如何快速的发现异常并恢复异常如何快速的发现异常并恢复异常三个挑战三个挑战个体异常的快速发现个体异常的快速发现个体与集体的关联关系个体与集体的关联关系系统全面可观测性的应用系统全面可观测性的应用向后扩散向前溯源华为云可观测性平台设计通过监测软件通过监测软件/硬件运行状态,达到指导技术硬件运行状态,达到指导技术运维和商业运营的目的,即监控运维和商业运营的目的,即监控=监测监测+控制控制监测软件运行数据(可观测性)控制采集计算存储消费分析告警计算极致性能极致性能多维聚合告警多维聚合告警聚合计