1、融级系统海量流量下的可架构实践开 篇分享的视链路融系统 电商链路、全链路、全场景、海量流量关注度影响范围业务系统分享的原因成01银弹03变化02why or how 04定 义 篇不可01020304服务器,可控机房故障9.11 天鹅事件光纤挖断,不可控外部事件上线故障,内部为事故不可融业务不可表现信息泄露 信息盗取:病毒、假冒站、数据安全事故 信息泄露:身份信息、账号密码泄露信贷欺诈 身份冒/本申请 身份美化 恶意逾期/恶意失联交易欺诈 盗刷 套现 盗帐号交易 线上业务交易欺诈账号盗 账号接管:登录、修改及管 理身份、绑卡、窃取信息数据、动账转账时间已知未知不可是指潜在险在定条件触发下的结果
2、呈现险 险条 件不可不可是什么01020403SLA 服务平协议MTTR 平均故障时间SLI 衡量服务质量的指标 MTBF 平均故障间隔时间业内定义P0P1P2业务资质 资损舆情客诉户体验业务收、预期核业务全部接100%、80%、时分钟秒不可系统级别L类型E程度D时间T不可=L1.E1.D1.T1+.+Ln.En.Dn.Tn业务视不可01PRAT02PRAT03PRAT不可的等级有随时间及其他外部因素逐步提升的趋势趋势性险的触发条件较隐晦隐秘性 交换机宕机 主机上其他应有定时任务爆发性不可的特性不可原因 时代 业务VUCA乌卡(易变性、不确定性、复杂性、模糊性)时代业务的现状是我们现在已经从单
3、的做业务,到业务态,我们处在个快速裂变的时代 VUCA单体架构微服务架构企业级架构开放式架构数字化时代信息化时代具化时代具化时代不可原因 时代 基础设施2009 Above the Clouds:A Berkeley View of Cloud Computing 2019 Cloud Programming Simplified:A Berkeley View on Serverless Computing不可原因 内因 流量 变化(时间 )不可靠 耦合 系统架构 上线不可原因 成本成本可性成本 VS 险不可原因 认知下游是稳定的所有降级措施是有效的低优先级系统不需要备战所有应急预案是可执的
4、流量洪峰后系统能快速恢复系统重试能解决问题上游已经替我做了保护历史的经验是可靠的 可 涉及 所有 业务场景、系统各层级、软件开发的全命周期、组织架构、团队分,贯穿整个软件开发体系 可的难点在于对软件的全景认知,对于(新)变化的感知,对于(历史)险点 的识别,在于事前预估与预案,事中有效处理,事后复盘总结,形成闭环 即使付出了99%的努,也会因为 1%的疏忽 ,带来意想不到的结果 ,所以可应该是套需要 持续完善和迭代的体系和法论 、需要持续的关注和投 不可原因结 构 篇结构单结构复合结构复杂结构串联体 系 篇可指导思想01系统-业务02险-事故03架构升级04数据驱动减少险点控制险转化为事故有险
5、必有监控,有监控必有预案,有预 案必经验证追求业务连续性以不可等级为评判标准追求业务收益与线上险之间的平衡通过业务数据形成业务系统险数据模型借助数据模型+AiOps强化险预警与提前部署预案能通过架构升级,沉淀标准的业务模型、技术解决案,降低为错误率,提升系统的可性 研发成本 管理成本 资源成本成本不可等级系统 软件命周期 现有解决案 容错性 体系完善度(监控覆盖度、上线SOP、预案)认知、能要求 组织架构可考虑因素识别预防定位解决如何尽早识别未知险如何全预防事故发如何精准定位问题 如何快速、有效解决问题可临的挑战感知如何尽快感知事故0201030506识别指标体系混沌程报警体系复盘动化平台化解
6、决预防研发规范安全漏洞修复容量保障代码质量提升报警收敛容灾感知定位硬件监控平台链路监控平台业务监控平台体系打造04常/促预案硬件异常预案业务异常预案促预案异常执规范可体系监控屏上下游沟通机制值班机制识别 指标体系应程序层场景层 交互 基础设施层CPUMemory负载线程数I/O StatisticsNetworkQPSTPS 内部 质量消息积压错误码统计报警数量户访问次数及时统计场景流量识别 混沌程混沌程010205040306CPU负载故障磁盘故障络延迟故障RPC故障REDIS故障MYSQL故障预防 研发命周期研