书签 分享 收藏 举报 版权申诉 / 239

类型阿里云:2022云栖大会-云原生峰会PPT合集(239页).pdf

  • 上传人:吱**
  • 文档编号:106492
  • 上传时间:2022-11-16
  • 格式:PDF
  • 页数:239
  • 大小:20.13MB
  • 配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    阿里 2022 大会 原生 峰会 PPT 239
    资源描述:

    1、云原生激活应用构建新范式丁宇阿里巴巴集团研究员阿里云智能云原生应用平台总经理云计算时代,企业应用构建面临新挑战可信安全业务智能资源弹性应用敏捷系统稳定云原生激活应用构建新范式运维标准化,成为服务新界面高弹性可伸缩,助力降本提效全负载容器化无处不在的部署全面容器化核心技术互联网化应用Serverless化分布式可扩展,业务敏捷迭代弹性架构,从容应对流量高峰高可用高可靠保障业务连续性技术组件分层解耦,实现全托管自适应弹性免运维,按用量计费研发模式再升级,聚焦业务创新容器服务 ACK Anywhere:计算无界、承载无限在企业任何需要云的地方,提供统一的基础设施ACK One多集群,多环境管理统一应

    2、用交付ACR统一应用资产管理ASM统一应用通信统一数据容灾统一资源调度统一集群管理微服务Apache DubboSpring Cloud有状态应用MySQLRocketMQ大数据/AI应用Apache FlinkTensorFlow创新应用区块链IoT边缘容器ACKEdge容器服务 ACK/Serverless 容器服务 ASK专有云企业版ACKACK 发行版ACK 敏捷版飞天技术底座与基础云服务客户 IaaS20%计算密集型应用性能50%网络延迟100%异构资源利用率中心云公共云本地云边缘云专有云以上数据来源于阿里云智能成本治理:上云用云成本可见、可见、可优化容器服务 ACK 全面进入智能化

    3、时代容器服务 AIOps 套件数据驱动诊断决策,助力故障防御定位得物 App基于容器 AIOps 套件定位问题从周缩短到小时智能化运维体验周小时容器服务 FinOps 套件上云成本可见、可控、可优化智能化成本治理20%中华保险基于容器 FinOps 套件实现资源闲置率 30%降低到 10%智能算力优化:调度、弹性全面优化识货 App20%智能化混部调度节省 20%资源成本智能化混部调度新一代调度系统 Koordinator提升整体资源利用率以上数据来源于识货、中华保险、得物业务场景企业级互联网架构异地多活应用云原生上云云原生技术中台业务中台云原生网关企业级高可用架构全链路压测混沌工程安全生产资

    4、源混部大促稳定性消息队列RocketMQ版消息队列Kafka版企业级分布式应用服务 EDAS应用实时监控服务ARMS应用高可用服务AHAS微消息队列MQTT版消息队列RabbitMQ版微服务引擎 MSE云服务总线 CSB链路追踪性能测试 PTS消息服务MNS事件总线EventBridge服务网格ASM分布式事务 GTSPrometheus 监控服务数字化安全生产云拨测可观测高可用容器服务 ACK Anywhere公共云边缘云专有云开放标准,开源增强,组件全托管,构建现代化应用消息队列大规模,类型丰富,打造新一代“消息服务到云原生事件流”平台应用可观测开源兼容,全栈可观测,全链路诊断应用高可用全

    5、链路压测,业务级多活容灾,打造数字安全生产体系互联网中间件:助力企业核心技术互联网化解决方案中间件产品家族消息队列应用 PaaS 与微服务应用 PaaS 与微服务云原生网关 Higress 重磅开源内核(数据面+控制面)服务管理插件GitHub:https:/ CRDOpenKruiseService MeshAPI-Server安全类插件WAF 防护认证鉴权黑白名单自定义插件WASM 插件LUA 插件进程外插件API标准IngressGateway API 数据面控制面多 K8s 集群灰度协议转换限流降级多注册中心微服务生态PrometheusOpenTelemetryNacosSkywal

    6、kingApp1(单体应用)App2(微服务应用)App3(服务网格)Function(Serverless)K8s 生态标准化 全面实现 Ingress/Gateway API 标准 服务治理方面提供大幅增强高集成 流量网关、微服务网关、安全网关三合一 支持 Nacos 等主流服务发现易扩展 提供最丰富的插件机制(WASM/LUA/进程外插件)提供丰富的安全、服务管理默认插件热更新 证书、路由、安全规则、插件全部热更新 规则变更毫秒级生效,业务无感知MSE云原生网关服务发现负载均衡服务灰度多维度监控数据库安全认证高可用防护无侵入缓存消息队列MSE 服务治理无损上下线全链路灰度服务鉴权限流降级

    7、离群摘除SQL洞察业务应用NacosZooKeeperEurekaMSE 注册配置中心适合云原生架构的流量、微服务、安全三合一网关开放标准稳定可靠易于集成易于扩展阿里经验贡献开源开放、通用、面向云原生的微服务治理标准与最佳实践国内应用最广泛的动态服务发现和配置管理平台费芮互动服务注册发现性能2000+医院业务稳定性50%30%微服务实施周期构建开发测试环境天分钟网关TLS性能90%软硬一体优化响应时间50%99.99%微服务引擎 MSE 3.0 全新升级云原生时代的微服务管理最佳实践以上数据来源于企业业务场景企业风险治理IT 成本管理智能运维业务连续性保障敏捷组织提效云原生可观测 ACOS:助

    8、力企业构建可观测体系故障定位时间50%故障数30%以上数据来源于企业业务场景EDA(事件驱动)ESP(事件流处理)Apache社区阿里云消息服务RocketMQ 5.0轻量化存算分离Serverless化可观测大规模业务消息集群,承载千万级TPS,万亿级消息洪峰累积服务10W+企业客户覆盖互联网、零售、汽车等20+行业75%头部企业选择Apache RocketMQ全球超过 700 Contributor80%主流云厂商提供托管服务微服务集成:主流微服务生态集成联动Serverless驱动:FaaS事件触发器驱动通知推送:移动端、SaaS等多端投递网关调用:云服务统一网关集成CDC:低延迟、一

    9、对多订阅ETL:低代码、模板化处理连接器集成:标准协议、统一连接流查询计算:轻量化、内聚查询处理云原生架构升级RocketMQ 5.0:从消息服务到云原生事件流平台从资源到服务,阿里云核心产品全面 Serverless 化应用运行时SAEFCASK应用集成大数据数据库存储人工智能微服务应用PolarDBAnalyticDBRDSEBSSLSNASOSSTablestoreHBR实时计算Fink版MaxComputeHologresElasticsearchKafkaMNSRocketMQSWFEventBridge智能客服PAIWAFCDNMSEPTSARMS半托管到全托管自适应弹性开箱即用免

    10、运维按用量计费在线应用游戏互娱微服务前端全栈在线教育/音视频Apache Dubbo电商零售游戏中台Spring Cloud小程序数据智能HSFServerless Devs组件插件云效云+端一体化极速体验应用模块库经典案例库面向应用-SAE面向容器-ASK存储服务数据库服务应用监控&日志网络服务安全服务丰富的应用场景完善的开发工具消息服务Serverless 应用中心后端 BaaS 服务联动Serverless 计算平台Serverless 运行时升级:云上应用构建更简单面向函数-FCSAE 提供新负载、新场景、新工具 Job 类型负载正式上线 支持多语言微服务 支持更丰富的工具链函数计算

    11、FC 拓宽三大场景 高性价比的音视频处理能力 开箱即用的消息 ETL 能力 Serverless GPU 正式上线Serverless 应用中心发布 海量模版,快速上手 企业级特性,更规范 开源工具联动,开放生态共建Serverless 引领下一代应用架构互联网分布式架构分布式研发serviceServerless 架构组装式研发服务化/模块化/可编排/可组装企业级应用架构集中式研发单体应用开发效率成本下降70%40%扩容效率10倍成本下降研发运维提效周 小时促销准备时间40%30%以上数据来源于企业业务场景云原生 PaaS:CNStack 2.0 重磅发布应用交付平台社区版CNStack L

    12、ocalCNStack Online标准版ACK Distro平台管理能力中心企业服务运维服务资源服务(集群、分布式存储、虚拟网络、备份冗灾、负载均衡、证书)工作负载(有/无状态、批处理、混部调度)应用场景容器云分布式应用云边协同DevOps资源优化AI/大数据业务中台在线集成在线验证在线交付在线演示同标准同架构同体验同发布与标准版阿里云官网免费下载社区论坛免费技术支持云 服 务(多集群、虚拟化、分布式应用、边缘应用、DevOps)云 组 件(消息、数据库、缓存、大数据)异构 IaaS统一算力支持一站式应用管理支持不同厂商、不同架构、CPU/GPU算力混合管理支持管理容器、虚拟机多种负载的混合

    13、调度丰富的云组件,为业务创新提供完整的技术栈支持能力中心组件经过规模化验证,运维稳定性有保障应用开发、测试、运维全生命周期的一站式管理容器服务、分布式应用、云边、DevOps全场景覆盖丰富易用的能力中心引领标准、持续突破,推动领域发展技术引领国内唯一云厂商APM 领域全球领导者FaaS 领域全球领导者公共云容器平台产业认可广泛客户群体服务数十万企业客户,服务百万云原生开发者最高等级的认证云原生能力成熟度模型,国内唯一全域最高级(来源:信通院)国家技术发明二等奖容器调度、混部等面向突变型峰值的关键技术浙江省科技进步二等奖面向互联网应用的高性能分布式中间件关键技术及平台2006自研互联网中间件20

    14、09自研飞天操作系统2011容器调度技术支撑集团在线业务2013全链路压测实现双11零点技术确定性2015云原生技术全面商业化2017规模化混合部署统一调度支撑百万级规模电商交易2019阿里巴巴核心系统100%上云百万容器支撑双十一2020阿里巴巴核心系统全面云原生化2021阿里云云原生化2022Serverless 时代全面到来开源贡献构建开放、融合的云原生生态体系共同服务 20万+云原生客户SaaS&ISV 生态分销&SI服务生态转售合作产品合作服务合作云原生上云咨询与服务云原生成熟度评估数字化安全生产应用稳定性保障百城计划,亿元专项资金推动领航计划,产品专项攻坚伙伴带动云原生产品打造可规

    15、模化的联合解决方案,共同服务市场伙伴提供定制的云原生咨询和交付服务产品联合共建,为客户提供全面完整的云原生产品体系PaaS 产品生态THANKS 全球云原生技术趋势洞察栗蔚中国信息通信研究院 云计算与大数据研究所 副所长高12345趋势1:云原生正在成为应用现代化建设的先导技术,加速应用轻量、高效、开放和智能的构建趋势2:Serverless加速应用开发从集中式向组装式转变,实现应用开发的服务化、模块化和可编排。趋势5:云原生降本方案有效解决运营成本洞察和优化难题,成为企业深度用云的刚需。趋势4:云原生与安全深度融合双向赋能,催生新形态的云原生安全产品服务和交付模式。趋势3:云原生数据产品开启

    16、数据供给体系的现代化变革从资源管理到价值挖掘全球云原生技术趋势洞察孵化期6趋势6:软件架构日趋复杂,可观测性构建业务全链条保障能力。2低高高产品服务形态变化14365The Insight Partners数据显示,2018年,全球应用程序现代化工具市场价值为80.4亿美元。预计该市场将在未来几年迅速增长,到2027年将达到368.6亿美元的规模。数字化转型滋生的超级应用需求,迫使应用产业进行现代化改造,以低成本高效率管理指数级增长的应用。现代化应用的特点海外IT服务商争相推出以云原生技术为核心的应用现代化改造方案 评估、软件经验和科学指导 云原生应用开发 利用无服务器技术进行应用开发和交付

    17、利用DevOps加快软件交付速度,内置安全性 应用迁移,将虚拟机中的传统应用迁移到原生容器中 API管理:管理、分析所有环境中得API 主机现代化改造,使用自动化代码重构工具集 混合云和多云应用平台趋势1:云原生正在成为应用现代化建设的先导技术加速应用轻量、高效、开放和智能的构建企业数字化转型带来的传统应用改造需求持续攀升,应用亟需经历一场现代化革命,为此海外IT厂商已经布局数年,应用现代化从概念推广走向落地阶段,云原生正在成为应用现代化改造的核心技术手段。未来几年全球应用现代化市场预计持续扩张 云战略咨询 构建云原生服务:通过云原生构建战略,借助混合多云平台,低成本加速创新 面向混合云得案例

    18、服务,提高ROI,解放IT资源 重新托管 重新架构 平台重构 运用云计算、自动化、微服务、容器、AI等Google CloudIBMMicrosoft高效更加高效的实现并交付业务价值轻量体量规模小型化满足业务创新需求可随时替换或升级智能流程高度自动化智能化开放业务应用和数据应用可通过开放能力进行链接,满足数字业务的互联互通应用现代化加速企业战略落地,是企业数字化转型的关键抓手应用现代化是一个长期的、持续演进的,通过应用的现代化建设不断贴近从而最终实现业务价值、达成企业战略目标的过程,涵盖旧应用的现代化改造和新应用的现代化构建。应用现代化框架图转型前应用痛点产品上市周期冗长运行时安全难保障数据孤

    19、岛问题凸显开发运维门槛较高业务痛点服务市场敏感度低产品与需求错峰内部资源浪费明显消费者蒙受损失转型后小步迭代,低成本,快速演进全链路可观测,快速定位根因强兼容,可扩展最小化非业务代码,低代码智能能力嵌入,实时感应极致压缩从感知上市时间流程高度自动,产线一体化业务韧性强,保障连续作业应用现代化改造应用改造架构优化技术迭代流程改造组织优化战略升级价值嵌入层层架构,数字化能力成为核心竞争优势目标数字服务应用平台软件架构融合技术底层技术产业生态平衡云原生软件架构产业管理平台数据分析平台智能运营平台松耦合分布式易扩展高韧性不可变基础设施持续集成持续支付按需弹性标准化封装部署申明式描述AI边缘计算区块链大

    20、数据云原生中间件(观测、数据、网关)容器微服务网格Serverless数字原生化能力原生化价值原生战略企业价值最大化趋势2:Serverless加速应用开发从集中式向组装式转变实现应用开发的服务化、模块化和可编排Serverless是业界共识的技术趋势信通院、Gartner、IDC等国内外研究咨询机构多次在公开报告中将Serverless视作未来的技术发展方向,并推荐企业紧跟技术趋势,积极试点应用Serverless技术。Serverless技术正走向成熟:Gartner将Serverless计算列为2019年影响基础设施和运维的十大趋势之一;到2022年,Serverless Infrast

    21、ructure正走过幻灭期,即将进入稳步爬升复苏期。Serverless采纳率与关注度攀升:信通院发布的2021中国云原生用户调查数据显示,已开始和计划使用Serverless的用户超过七成,较2020年增长近10%,Serverless应用潜力巨大。企业对Serverless投入意愿强烈:IDC 2022年发布的PaaS领域投资计划调查结果显示,Serverless在企业的预期投资领域中排名第3。革新应用构建范式,Serverless 契合快速构建、敏捷高效的发展思路服务器无感知(Serverless)技术秉承着以应用为中心的核心理念,通过对软件设计、开发、交付、维护模式的全面革新,在高速运

    22、转高频竞争的数字社会,满足数量多、速度快、质量好、成本省的现代化应用构建需求,通过深度的解耦、高度的集约、极致的供给,提高社会生产力。提高生产力应用设计:化繁为简,屏蔽复杂基础设施应用开发:最大化价值,聚焦业务逻辑应用交付:敏捷创新,提升迭代效率应用维护:轻装上阵,甩掉运维包袱2000200520102015202020252030虚拟化(焦点是资源汇聚)IaaS/PaaS(焦点是虚拟资源管理调度)容器云(焦点是标准化的应用部署环境,不同状态的应用的自动化编排调谐)Serverless(聚焦业务价值,将基础设施剥离下沉)面向应用面向基础设施降低多方成本供给“无穷算力”聚焦主要矛盾,关注上层业务

    23、逻辑,把有限的精力放到最关键的环节 复用成熟能力,平台提供完善的底层实现方案,提高生产效率 加速价值实现,以最快速度实现敏捷迭代,加速生产力跃升 从资源角度,按需使用避免闲置,提升资源利用率 从开销角度,无前期建设成本,后期按量付费,启动成本低 从人员角度,开发量大幅下降,几乎无需运维 算力资源集约化,平台集中算力资源,构建庞大的资源池 算力调配自动化,平台通过对资源池的再规划,自动化统筹算力分配 算力获取极速化,根据使用需求快速获取,用户层面几乎无算力瓶颈趋势3:云原生数据产品开启数据供给体系的现代化变革从资源管理到价值挖掘传统数据供给体系云原生数据供给体系标志能够处理的数据类型单一不同类型

    24、的数据之间无法关联打通几乎不具备数据分析、数据挖掘能力数据相关的工具无法集成整合代表技术小量级、离散数据的查询检索以资源管理为中心云原生数据库、云原生数仓、云原生湖仓一体特征海量多模数据的关联分析和价值挖掘以价值挖掘为中心关系型、非关系型数据库PB甚至EB级的数据处理能力数据仓储、消费一体化处理大数据处理、机器学习、日志分析等数据相关服务集成数据在多服务、多工具间的自由流通数据产品的本质是对数据的生产、处理、存储、消费等全链路流通进行分析管理,而在数据爆炸性增长、生产/处理实时化和智能化需求越来越高的数字化时代,传统数据供给体系下的数据、工具天然割裂难以整合,以云为技术底座的数据供给体系实现了

    25、数据的自由流通和工具集成。数据产品加速向存算分离的云原生化架构演进产品演进角度,云原生技术对于数据库、数据仓库、数据库、数据湖仓一体等数据载体的作用逐渐突显,采用云原生存算分离架构的数据产品将成为重要发展方向。传统数据产品产品架构变化云数据产品云原生数据产品OLTP专用设备、一体机Share everythingCloud Native云原生架构计算存储分离容器、微服务、无服务器OLAP、HTAPMPP架构计算存储紧密耦合Share nothing数据产品演进聚焦事务处理的传统关系型数据库传统数据仓库兼容数据分析的云数据库云数据仓库数据存储和决策支持的云原生数据库云原生数据仓库云原生数据湖云原

    26、生湖仓一体分布式文件系统HDFS分布式计算引擎MapReduce大数据快速处理引擎Spark分布式实时计算系统Storm分布式流批一体系统FlinkHadoop资源管理器YARN分布式数据库HBase数据仓库(数据查询)Hive分布式消息系统KafkaSpark、Kafka等大数据组件先后宣布兼容Kubernetes平台或推出适配方案大数据云原生化发展云原生安全是在云原生环境下,因软件架构和应用模式变革演进出的新安全模型,主要包括云原生基础设施安全、云原生应用服务安全、云原生研发运营流程安全以及云原生安全运维等。云原生安全具有边界防护模糊、软件供应链风险大、基础环境弹性变化、生命周期短、攻击面

    27、大等突出特点。架构变革带来的新组件安全风险催生新的产品和解决方案,而传统云安全的产品也需要适应云原生架构,云原生与安全深度融合双向赋能,形成内生安全。软件架构变革带来新安全风险1.容器编排、供应链、运行时风险2.微服务拆分加大防护难度3.无服务器模型的新安全威胁1.微服务细粒度拆分与动态迁移增加防护难度2.敏捷的研运模式提升流程化安全管理难度3.无服务器计算模型和平台呈现新安全威胁应用模式改变带来的新安全需求敏捷的架构要求安全机制具备同样的特性1.容器形态的运行时监测能力2.边车形态的网络隔离能力等弹性、轻量、可编排、高可用适用于边缘、多云等异构场景云原生技术全方位增幅安全能力云原生与安全双向

    28、融合,形成新的安全体系安全左移,安全与DevOps等工具手段完美融合根据Gartner 2022年云平台服务技术成熟度曲线和2021年云安全成熟度曲线可以看出,云原生安全发展节奏相对滞后云原生技术。约50%的镜像一周内被替换云原生自身技术栈的延展突破了现有的安全产品的防护框架,云原生应用实例极大地缩短了应用生命周期,准确捕捉容器间的网络流量和异常行为成为新挑战。趋势4:云原生与安全深度融合双向赋能催生新形态的云原生安全产品服务和交付模式根据康威定律,技术架构与组织流程和架构存在着互相的约束关系。云原生安全技术体系的变革同样会推动组织的管理体系和人才体系的变革。安全与基础设施融合催生新形态的安全

    29、能力和交付模式。随着云计算的发展,云基础设施建设增速明显。根据IDC预测,2021-2026年全球云基础设施开支CAGR达12.6%。由此导致云原生安全也同样面临边缘、多云、混合云等架构下云原生基础设施异构的问题。数据来源:中国信息通信研究院中国云原生用户调查报告2021新交付模式:云安全托管服务(CMSS)新安全能力:云原生应用保护平台(CNAPP)业务发展视角基础设施异构安全视角高可用灵活性节约成本统一安全管理安全产品部署应急响应时效性安全防护水位对齐挑战安全左移新理念云原生技术栈复杂门槛高,云原生安全与业务密切联系,传统的安全运维团队无法满足要求。责任共担企业安全的职责边界从开发、运维、

    30、安全的各司其职,转变成责任共担。多部门协作技术培训初期由云原生研发运维团队承担安全职责,逐步与信息安全部门融合。需要专业的技术培训和认证体系。云原生安全与人员融合,重构企业管理体系和人才体系企业担任云原生安全工作的部门安全与人员和基础设施融合,产生新形态的管理体系和交付能力趋势5:云原生降本方案有效解决运营成本洞察和优化难题成为企业深度用云的刚需随着企业用云程度加深,越来越多的应用迁移到云原生架构上,但由于计资源配置不合理、资源价值挖掘不充分、低效闲置资源难识别等原因引起的云上资源闲置和支出浪费成为新的用云挑战,云原生降本增效方案和产品创新不断,获得企业高度关注。云原生基础设已被广泛采用成本问

    31、题引发关注云服务商纷纷推出云原生降本增效方案云环境下成本优化能力不足容易产生闲置和低效率的情况阿里云云上 成本管理腾讯云-Crane据信通院调查数据显示,79.3%的用户使用Kubernetes进行容器集群的编排管理。2021 年 CNCFFinOps Kubernetes Report调研报告显示,迁移至Kubernetes平台后,68%的受访者表示所在企业计算资源成本有所增加。资源配置经验不足企业资源配置过量和使用不当导致的资源浪费问题导致资源成本超出预期。资源潜在价值未挖掘企业资源配置等问题导致上云效果不及预期,资源潜在价值未得到发挥。低效和闲置资源难以识别企业资源治理混乱和监控保障不足

    32、导致大量低效资源难以识别。云原生降本增效方案促进成本合理分配、资源动态调度成本洞察资源跟踪准确管理、成本分配合理高效成本优化资源合理设置分配、应用多维弹性混部成本采集及资源追踪公有云成本账单记录私有云成本账单采集云资源情况持续追踪资源利用率实时监控成本分配及可视化多维度资源成本可视化有效建立浪费问责机制快速制定优化方案措施复盘回顾改进优化方案统一账单管理促进优化方案更高效资源请求合理设置用资源配额划分资源用Limit Range限制资源动态调度基于节点亲和性动态调度基于负载感知的动态调度多维度弹性资源按指标弹性扩缩容资源定时、垂直扩缩容在离线混部在线作业中填充离线作业离线作业快速上下线GPU共

    33、享准确持续优化仍有挑战精准定位难云原生平台底层资源共享、应用动态部署,资源与应用无法一一对应,很难精准定位成本浪费的根源。影响因素多定位到问题根源后,需要综合考虑多方因素,优化路径既要有效又不能对现有架构引入新的风险。成果时效短由于业务动态变化,有效的降本增效机制运行一段时间后容易失效,这将带来新的问题。降本增效推动价值凸显,准确持续优化仍有挑战云原生时代系统架构日趋复杂,可观测性有助于洞悉系统运行状态。可观测性脱胎于传统监控技术,在故障发现基础上,可实现高效的故障定位与故障解决,保障系统稳定性。复杂的云原生软件系统,系统服务调用链路拓扑图云原生架构复杂性随着分布式、解耦合的新型系统架构普及,

    34、云原生时代下的服务调用链长,系统行为复杂,软件系统稳定性难以保障。MetricsLoggingTracing监控指标:固定类型的时序数据链路追踪单个请求的完整处理流程日志软硬件/通讯事件记录可观测性将采集到的多种信息联动分析监控工具仅能发现故障使用传统监控工具,虽然可通过监控指标及大盘完成故障发现,但由于无法对系统的全链路调用信息进行组合分析,导致难以定位故障来源、更无法解决故障。可观测性:快速定位并解决问题可观测性由日志、指标、链路追踪三种核心数据组成。在日志与监控指标组成的传统监控基础上,通过统一的链路追踪洞察系统服务调用链,并与日志、指标数据联动分析,定位故障来源,助力故障排查与解决。趋

    35、势6:软件架构日趋复杂,可观测性构建业务全链条保障能力多种观测技术及内核技术的发展推动了可观测性数据的多样化;统一化的可观测性建设方式使得观测信息高效联动;可观测性技术的应用范围进一步推广,向业务优化、软件质量等领域拓展。建设方式趋于统一应用范围持续推广 可观测性”统一采集、统一处理、统一储存“的建设方式极大地方便了故障解决,这一建设方式越来越多地被业界采纳并推崇。CNCF也将其原本独立的可观测性项目进行合并,整合OpenTracing及OpenCensus形成OpenTelemetry,对日志、监控、及链路追踪形成统一的标准集与工具集。可观测性的建设方式在业界逐渐形成共识,向整合、统一的方向

    36、发展 随着eBPF技术在可观测性领域的持续应用,使原本难以触达的内核级数据也可以被观测和采集,衍生出了如profile,crash dump等新型数据展示手段。支持用户自定义数据采集的相关功能也成为主流,可观测性数据进一步丰富。观测技术不断发展,推动可观测性数据类型持续丰富观测方式更加多样 RUM(real user monitor),Synthetic等观测技术可洞悉用户体验。可观测性应用场景突破稳定性领域,保障业务服务质量。可观测性为业务对比及调优提供数据支撑,如A/B测试等多版本功能对比时,通过观测数据对比版本业务效果优劣,为产品优化、业务迭代指明方向。可观测性应用范围突破稳定性保障领域

    37、,作用于业务优化、软件质量保障洞悉云原生系统运行状况,可观测性重要性日益凸显THANKS 容器服务助力企业精益用云易立阿里云容器服务负责人Lean Computing on Cloud with Container ServiceProduct Portfolio for Alibaba Cloud Container Service容器服务助力企业数字化创新Enable Innovations for Everyone with Alibaba Cloud Container ServicesACK-Kubernetes ServiceASK-Serverless KubernetesACK

    38、 ONE多集群、多环境管理统一集群管理统一资源调度统一数据容灾统一应用交付边缘容器-ACKEdge专有云企业版 ACKACK DistroACK敏捷版飞天技术底座与基础云服务客户 IaaS中心云本地云公共云边缘云专有云ASM统一应用通信ACR统一应用资产管理行业认可Alibaba Cloud Named Container Platform LeaderForrester 公共云容器平台 Q1/22全球领导者Omdia 容器管理方案 Q2/22全球领导者CSDN 2022中国开发者调查报告52%开发者选择阿里云容器云平台ACK新架构新实践新算力新平台精益用云-以“增效”促“降本”Saving

    39、Cost through Improving Efficiency with Cloud Native TechnologiesContents目录01新算力02新平台03新架构04新实践高性能容器网络High-Performance Container Networking新一代云原生算力支持Support for New Generation Cloud Native Computing PowereRDMA性能提升:AI训练加速20%,微服务吞吐提升10%;密度提升:支持最多30容器高效复用eRDMA设备;卓越性价比Cost-efficiency(阿里云容器服务团队测试结果)倚天710高

    40、性价比:Web应用提升50%,视频编解码提升80%云原生优化:采用物理核心,调度优化提升Web应用吞吐20%全链路加速-客户端加速+多链接传输协议全链路可观测-支持NAS/CPFS/OSSFS 吞吐提升元数据QPS提升存储成本下降文件存储NAS文件存储CPFSCNFS 内置文件存储加速、对象存储客户端对象存储 OSS多链接并行I/O分布式数据缓存QoS性能监控标准 POSIX 文件接口AI 训练持续交付平台基因计算Web应用ACK/ASK/ACKEdge托管加密NAS&CPFSOSS容器网络文件系统 CNFS 2.0Container Network File System CNFS 2.01

    41、00%18倍50%容器网络文件系统 CNFS 2.0(文件存储场景,相较传统方案,以上数据为阿里云容器服务团队测试结果)新一代机密容器护航数据安全Confidential Container for Data Privacy可信容器运行时可信数据存储可信软件供应链机密沙箱容器(Intel TDX)进程级机密容器(Intel SGX2)远程证明服务Guest OS KernelDragonball(rund with cc-shim)Kata-agentimage-rsattestation-agent用户应用Occlum/Gramineenclave-agentimage-rsattestat

    42、ion-agent用户应用Inclavare Container(rune)ACR镜像服务EBS存储金融风控医疗健康人工智能IoT端到端可信运行环境数据隐私保护应用场景Contents目录01新算力02新平台03新架构04新实践新一代容器任务调度器New Generation Workload SchedulingACK Kubernetes 集群任务调度PodPodPodQoS 感知调度/重调度差异化SLO管理PodPodPodPodPodPodPodPodPodPodPodPod多种工作负载统一编排、调度高性能计算高性能存储高性能网络全兼容、零侵入、高性能、多负载资源效率100%混部调度差

    43、异化SLO保障应用间性能影响 BE可用的 CPU CPU Group Identity 干扰抑制高优先级进程内核在调度时可抢占低优先级进程的 CPU 时间片Noise Clean,避免超线程的干扰单机质量保障 CPU Burst内核提供补偿机制,避免被限流Memory QoSLS/BE 共存时,优先保障 LS Pod通过阿里开源社区 koordinator 项目,融合 alinux 内核能力,保障混部下高优在线业务的服务响应质量应用场景解决方案混部弹性伸缩成本优化智能 SLO调度引擎Scheduler/DeschedulerRecommanderSLO Manager提供差异化 SLO 的调度

    44、能力单机执行引擎kubeletSLO Agent提供差异化 Qos 的调度能力kubeletSLO Agent容器架构核心技术弹性目前小红书是一个多云多 K8S 集群架构,在阿里云上部署了多套 ACK 托管集群。社区 HPA 方案主要是单集群的,所以我们自研了 fed HPA目前支持多种探测策略,包括1)cpu 和 mem 2)cron 定时 3)基于业务自定义指标,比如 qps 4)预测 HPA,基本上满足在线服务弹性需求。集群-1kube-apiserverprometheus adapterMetrics-serverprometheuskubeletPodPodPodPodHPA管理器

    45、定时扩缩校验&记录MySQL用户配置根据负载扩缩根据QPS扩缩触发器策略计算定期采集Pod负载、QPS信息scarerowduplicatesets扩容缩容其他监控数据用户自定义数据集群-2kube-apiserverprometheus adapterMetrics-serverprometheuskubeletPodPodPodPod策略维度调度。实现服务 QoS 资源保障模型。按照服务的 QoS 等级,给与优先级不同的算力保障集群调度:通过用户输入的调度需求、统一的全局资源视图,根据不同的调度策略产生对应的集群调度结果,满足不同应用对于跨集群调度的需求节点调度:主要用于集群内节点调度。主

    46、要包含了 Red-scheduler-基于原生 K8S 调度器的小红书统一调度器,做了基于真实负载感知调度、抢占等策略容器架构核心技术多级调度一级调度策略调度服务 QoS 资源保障模型二级调度集群调度三级调度节点调度red-schedulerdescheduler收益1.大幅增强服务的多区域容灾与多活、跨云弹性与迁移能力2.支持小红书 10w+核的近离线服务 0 计算成本运行,整体上资源管理能力达到业界高水平未来发展1.算力归一化2.大规模资源的精细化运营3.推动存储、微服务治理、搜推广等服务云原生架构升级THANKS 云原生可观测套件ACOS构建无处不在的可观测基础设施周小帆阿里云智能资深技

    47、术专家云原生时代,落地可观测“三大难题”难以估量的价值回报落地可观测基础设施的“收益”到底如何衡量高昂且难以预估的成本微服务架构下指数级上升的可观测数据计算、存储成本数据与工具的割裂开源、商业化产品与存量资产之间的艰难选择阿里云云原生可观测套件 ACOS高效构建开放、高质量、低成本的统一可观测体系通过开放标准连接孤岛 阿里云 Prometheus 服务、阿里云 Grafana 服务、链路追踪 OpenTelemetry,全流程无锁定 连接所有阿里云可观测产品,高质量全链路观测 连接存量可观测数据资产,融合观测开箱可见的价值与低廉、可预估的成本 覆盖用户体验(UEM)、应用观测(APM)、云服务

    48、观测、成本管理、应急协同效率等场景 与阿里云应用托管平台默认集成 成本低于开源自建、可预估的计费模型客户案例一:友邦人寿可观测性覆盖研发生产全周期研发态与运维态相关指标的关联与展现,度量研发效率运维服务效率大幅提升应用性能指标、全局调用链、日志,快速定位跟因素多容器集群及应用服务的统一观测通过应用统一观测平台,形成指挥决策、仪表盘展示、告警推动多维度监控能力IE、Chrome、Firefox、Opera等浏览器容器 CaaS 资源监控物理机/虚拟机层监控业务指标监控应用调用链监控应用性能监控CPU、内存、网络、磁盘、TCP、Load JVM 堆内存、GC、Thread,Method性能.POD

    49、内存、CPU、健康度(Running、Pending、Failed)、集群资源监控、核心组件、运行事件服务调用全景、RT、TPS、Exception、慢sql、MQ、Redis业务核心指标,如:订单数量、订单金额、日活、月活、投保人数及其它业务指标自上而下设计云监控Prometheus+GrafanaARMS+SLS应用日志业务日志、应用日志、异常日志自下而上设计X客户案例二:飞凡汽车快速构建全栈可观测异构分布式云统一观测成本相较于自建与传统方案大幅下降使用 Prometheus 聚合实例构建分布式云系统健康状况全景涵盖应用层、云服务、基础资源,连接数据孤岛观测数据就近计算存储,降低公网传输费

    50、用阿里云容器服务ACK集群阿里云ECS集群自建Kubernetes集群(ACK注册集群)自建Prometheus阿里云云服务Prometheus聚合实例提供全局统一聚合查询,统一Grafana数据源,统一告警配置等能力部署在ACK的开源组件指标ACK内的业务指标ACK基础组件指标部署在ECS上组件及业务指标自建K8S集群内的指标云服务指标将阿里云 Prometheus作为自建Prometheus存储源一键接入ARMS Prometheus AgentRemote Write/Read Endpoint集成exporter集成exporter&服务发现for 容器服务for VPCfor 云服务

    51、for Kubernetesfor 远程存储从专精容器,到全栈观测Prometheus 版企业云监控:50+款云服务一键集成Prometheus 版ARMS应用监控:APM 监控指标+eBPF 指标+OpenTelemetry 指标全新包年包月计费:一价全包,成本无忧覆盖 Prometheus for ACK/for remote Write 等不同实例类型同等业务规模下,平均相较于自建成本降低60%*一键开启全球化可观测中心Prometheus 版ACK、ECS监控、Remote 实例:ECS(非K8s集群)、K8s集群、非阿里云集群统一观测Prometheus 聚合实例:数据去中心化计算存

    52、储,快速生成全球统一视图性能提升,降维打击支持十亿级别的时间线抓取与读写高基数、长周期查询优化,平均相较于自建性能提升5倍以上*阿里云 P r ometheus,无处不在的可观测基础设施根据CNCFCloud Native Observability MicroSurvey调查,84%受访者在可观测技术栈中使用 Prometheus阿里集团核心容器调度(千万核规模)与APM系统(PB级吞吐)以及 50+款云产品,全面基于 Prometheus 架构构建可观测体系以上数据来源于阿里云技术团队多次自建对比测试结果现已接入50+款云服务,并持续加入PolarDB云监控CDN企业级分布式应用服务EDA

    53、S应用高可用服务AHAS日志服务SLSElasticsearch应用实时监控服务ARMSRedisAPI网管云服务器ECSOSSWAFMSE网关性能测试PTSServerless KubernetesGrafana 9.0 焕新升级全新 Prometheus 和 Loki 查询语句生成器全新交互页面与搜索 Explore 功能强化企业级特性全面增强一键导入/导出自建实例 自动数据导出报表一键数据备份、恢复 用户操作审计统一运维&业务观测界面150+款可观测存储服务集成向用户提供跨 Region 的安全私网数据通道Grafana Alerting&Smart Metrics高可用、高准确率的动态

    54、阈值智能告警基于AI算法的自动异常巡检与根因定界阿里云 G r afana 服务,“观测界面”事实标准2021年末,Grafana Labs 携手阿里云提供 Grafana 托管服务截止目前(2022.11),用户通过阿里云 Grafana 服务创建了超过 170000 张大盘ARMS Java Agent 提供高质量自动埋点,免去维护开销通过 OpenTelemetry 补充业务、自定义组件埋点实现厂商无锁定通过 TraceExplorer 实现多来源 Trace 统一查询Continuous Profiling 洞察最后一公里瓶颈与Alibaba Dragonwell 团队联合推出生产环境

    55、性能问题定位至代码级别低功耗实现全天候主动剖析智能化再升级告警自动联动智能根因定位客户端-服务端联动诊断、数据/缓存连接池自动诊断基于 eBPF 技术的“轻量版应用监控”开放预览无侵入、支持全语言的应用监控快速获得集群全局拓扑结构在最新的 Grafana 9.X 中查看应用实时监控服务 ARMS,开启应用多维观测视角阿里云上的应用,“天生可观测”容器服务ACK、Serverless应用引擎SAE、函数计算FC、企业级分布式应用服务EDAS等应用服务默认集成OpenTelemetry 与Prometheus生态融合阿里云云原生可观测套件,全面提升企业观测力用标准连接数据孤岛释放更多隐形价值覆盖全

    56、栈场景赋能多角色预算更可控更高性价比THANKS 传音移动互联可观测体系设计与落地曹剑阿里云智能高级产品专家传音控股业务架构与特点Kubernetes生态IaaSVM、存储、网络、安全Web应用微服务A1微服务A2Web应用微服务B1微服务B2PaaS数据库、中间件阿里云法兰克福(生产)阿里云新加坡(测试)阿里云上海(开发)技术架构SpringCloud微服务云原生容器化云原生PaaS全球多地域关于传音控股“非洲手机之王”非洲智能手机市场占比47.9%*,传音移动互联广告平台作为非洲主流营销平台之一,助广告主通过移动端媒体实现精准有效触达。可观测挑战观测对象多且杂微服务多,调用链路复杂新服务上

    57、线频繁,运维工作量大*统计数据援引 IDCs Worldwide Quarterly Mobile Phone Tracker 2021 Q4可观测性整体设计思路 指标观测是可观测基础,梳理指标体系原则:分层设计,至上而下 告警驱动运维,IM内完成事件闭环 问题定位以链路为主日志为辅,指标到链路必须打通 开源标准优先,云服务优先黄金三指标SysLogHardware LogAccess logNginx logDB Logs应用日志Logbak/log4jCPUMEMNetwork消息堆积数据库连接K8s工作负责性能调用链路堆栈云服务链路VPC FlowTraceRouteTcpDump数据互

    58、联互通,开放,兼容PrometheusOpenTelemetryGrafana终端应用云服务&容器PaaS基础架构IaaSJS error/app crash页面性能PV/UV用户会话移动端日志调用链路堆栈云服务链路指标观测告警链路日志全生命周期观测指标设计1.资源层观测2.容器层观测3.云服务层观测4.应用层观测应用健康度 耗时、状态码、联通性应用观测 实例数、累计请求量、累计错误、QPS、RT、Error JVM监控(FullGC、Heap 等)慢Sql、Ingress监控(访问成功率、500错误比例、平均延迟)云产品观测 负载均衡SLB:活跃连接数,丢失连接数 云数据库Redis:响应时

    59、间,连接数使用率 消息队列MQ:消费延迟,堆积数 云数据库RDS:CPU使用率,活跃会话数节点观测 内存总量、使用量、限制量 CPU总量、使用量、限制量 网络带宽 磁盘空间工作负载 Deployment:期望副本数,可用副本数 Pod:健康度(Running、Pending、Failed),CPU使用率控制面 APIServer:读写成功率,在处理量 ETCD:存活状态,内存使用量事件观测视图:从盲点分散到全球全栈统一业务关键指标关键云服务视图应用性能技术观测大盘全局多维度大盘解决观测分散缺失痛点阿里云Grafana服务(杭州)孟买新加坡法兰克福数据源全球加速一套观测产品全球使用K8S集群性能

    60、指标Prometheus探针ARMS应用探针阿里云Prometheus服务应用性能指标云服务指标阿里云Grafana服务云监控SDK阿里云服务PaaS容器服务集群工作负载workload告警平台:从告警盯人到基于群的ChatOps转变告警事件-等级评估-分配处理人-状态追踪事件处理详情-事后回溯应用监控云监控容器服务监控前端监控值班运维支持排班升级分拣提效压缩降噪智能分组诊断自愈AI处理流程统一Prometheus数据源ARMS智能告警平台统一对接飞书群智能降噪内置告警数据分析大盘基于PromQL的告警规则全链路追踪诊断系统:从零散单点到规模化全面覆盖 容器环境自动接入,运维效率指数级提升 自

    61、动生成全局拓扑,微服务依赖一目了然 端到端完整调用链追踪,慢调用错误快速定位 指标观测关联链路和日志,可观测成为整体应用ARMS Pilot ControllerPrometheus服务容器服务集群POD链路、指标自动注入 Java agentARMS应用监控Deployment加入AnnotationARMS应用探针可观测架构大图可观测覆盖资源层、容器层、PaaS层和Web层全球多地域统一可观测架构,统一视图和告警目标架构总结Prometheus实例(容器服务)法兰克福新加坡孟买深圳Prometheus实例(云服务监控)Prometheus实例(ARMS应用监控)Web应用指标接口黄金三指标

    62、,JVM指标云服务观测指标RDS,Clickhouse,Kafka,消息队列MQ,SLB,OSS容器层&资源层指标Pod,Deployment,Node,Service,控制面、CPU,内存Prometheus实例(容器服务)Prometheus实例(云服务监控)Prometheus实例(ARMS应用监控)Prometheus实例(容器服务)Prometheus实例(云服务监控)Prometheus实例(ARMS应用监控)Prometheus实例(容器服务)Prometheus实例(云服务监控)Prometheus实例(ARMS应用监控)ARMS应用监控TraceARMS应用监控TraceAR

    63、MS应用监控TraceARMS应用监控Trace全链路追踪全球统一视图统一告警飞书群基于Prometheus统一指标通过ARMS应用监控构建全链路追踪系统阿里云Grafana工作区提供统一可观测视图ARMS告警平台对接各种告警事件,统一告警到飞书群处理Grafana工作区ARMS告警平台可观测建设之路可观测基础,建设指标观测系统运维第一界面,建设告警体系问题排查定位主力,引入应用性能观测补充诊断能力,接入日志引入AIOps提效用户侧定位,加入用户体验观测前置到开发测试态,可观测左移可观测价值衍生面向业务运维SLOTHANKS 应用 Serverless 化,让业务开发心无旁骛司徒放(姬风)阿里

    64、巴巴 资深技术专家阿里云可观测&Serverless 负责人Serverless 引领下一代应用架构Serverless 引领下一代应用架构购买计算、存储、网络等资源基于开源或自建应用软件和业务基础设施托管购买资源+软件服务由云提供部分软件运维应用软件托管按用量付费自适应弹性,免运维由云提供全托管服务Serverless 全托管云产品演进方向Serverless 引领下一代应用架构购买计算、存储、网络等资源基于开源或自建应用软件和业务基础设施托管购买资源+软件服务由云提供部分软件运维应用软件托管按用量付费自适应弹性,免运维由云提供全托管服务Serverless 全托管技术架构演进方向云产品演进

    65、方向企业级应用架构单体应用,弹性弱互联网分布式架构服务化,松耦合,复杂度高Serverless 架构模块化,可编排,可组装All on Serverless从资源到服务,阿里云核心产品全面 Serverless 化20Serverless 工具链Serverless 应用中心函数计算FC 阿里云 Serverless 计算产品内置负载均衡网关内置削峰填谷队列自研调度层按请求粒度的调度ECS+裸金属安全容器编写业务逻辑代码构建交付物ZIP、JAR、镜像Serverless 应用引擎SAE内置 Kubernetes 调度层内置微服务、可观测组件ECI+裸金属安全容器编写业务逻辑代码构建交付物JAR

    66、/WAR、ZIP、镜像配置负载均衡网关Serverless KubernetesASKECI编写业务逻辑代码构建镜像搭建负载均衡网关配置集群网络、网段管理集群、管理应用管理应用软件弹性容器实例ECI编写业务逻辑代码构建镜像搭建负载均衡网关配置集群网络、网段管理集群、管理应用管理应用软件编排管理容器实例研发与运维效率Serverless 应用中心:让 Serverless 更易开发All on Serverless 解决方案场景事件驱动WEB API数据处理AI 推理SaaS 集成构建 Serverless 应用支持开源规范海量应用模板Serverless 应用全生命周期管理标准 DevOps

    67、流程Serverless 应用中心+Serverless Devs 工具链Serverless 计算函数计算Serverless 应用引擎Serverless 云服务存储服务数据库服务消息服务应用可观测大数据服务官方支持 9 大场景,社区贡献 100+场景化应用三步上手最佳实践,上手门槛进一步降低海量模板,快速上手支持 Serverless 应用多环境能力支持 GitOps 流程,让业务上线更规范企业级特性应用创建、开发、运维全流程能力覆盖IDE 插件、命令行、Web IDE 联动让应用开发更便捷全生命周期管理人工智能服务Serverless Devs 进入 CNCF Sandbox信通院共同

    68、发布 Serverless 工具链模型标准开源开放,生态建设Serverless Kubernetes函数计算 FC:深入三大场景以上数据来源于阿里云技术团队多次对比测试结果函数计算 FC:深入三大场景全景录制兼具自建与 SaaS 化快速接入的优势,功能可灵活定制多路并行转码,无需排队即刻出片对比传统方案,算力消耗低、闲置少,降本 70%以上高性价比的音视频处理能力以上数据来源于阿里云技术团队多次对比测试结果函数计算F C:深入三大场景实时数据处理官方集成 Kafka、RocketMQ 等产品,内置数据处理模版,一站式配置内置上百款触发源,事件驱动免运维有效应对波峰波谷,亿级每分钟的事件吞吐开

    69、箱即用的消息 ETL 体验全景录制兼具自建与 SaaS 化快速接入的优势,功能可灵活定制多路并行转码,无需排队即刻出片对比传统方案,算力消耗低、闲置少,降本 70%以上高性价比的音视频处理能力以上数据来源于阿里云技术团队多次对比测试结果函数计算F C:深入三大场景实时数据处理官方集成 Kafka、RocketMQ 等产品,内置数据处理模版,一站式配置内置上百款触发源,事件驱动免运维有效应对波峰波谷,亿级每分钟的事件吞吐开箱即用的消息 ETL 体验GPU 硬件加速助力 AI+转型,提供最小 1/16 卡的多种规格 GPU 算力分割,秒级弹性支持音视频、图形图像渲染等场景的硬件加速,秒级计费准实时

    70、,3 GB 镜像 2 秒冷启动开销GPU 算力更普惠全景录制兼具自建与 SaaS 化快速接入的优势,功能可灵活定制多路并行转码,无需排队即刻出片对比传统方案,算力消耗低、闲置少,降本 70%以上高性价比的音视频处理能力以上数据来源于阿里云技术团队多次对比测试结果函数计算全面降价,让 Serverless 成为普惠大众的云上水电煤精细计费粒度计费时长精细到 1 毫秒vCPU 最小规格到 0.05 核GPU 最小规格到 1/16 卡规格按需选配vCPU、内存、磁盘规格按需自由选配贴合应用运行时开销,无浪费资源闲置率低按请求处理时长计费按量用完即回收预留闲置仅 1/10 价格函数计算全面降价,让 S

    71、erverless 成为普惠大众的云上水电煤精细计费粒度计费时长精细到 1 毫秒vCPU 最小规格到 0.05 核GPU 最小规格到 1/16 卡规格按需选配vCPU、内存、磁盘规格按需自由选配贴合应用运行时开销,无浪费资源闲置率低按请求处理时长计费按量用完即回收预留闲置仅 1/10 价格vCPU 降11%内存、GPU 降20%出公网流量降37.5%调用次数降25%函数计算全面降价,让 Serverless 成为普惠大众的云上水电煤资源日均利用率 30%以下闲置资源浪费严重使用 Serverless 之前资源利用率提升到 60%90%成本降低 15%70%使用 Serverless 之后以上数

    72、据来源于阿里云技术团队多次对比测试结果函数计算全面降价,让 Serverless 成为普惠大众的云上水电煤资源日均利用率 30%以下闲置资源浪费严重使用 Serverless 之前资源利用率提升到 60%90%成本降低 15%70%使用 Serverless 之后以上数据来源于阿里云技术团队多次对比测试结果典型客户案例视频直播交友和相亲 APP业务有峰谷特性低峰期资源闲置,高峰期任务排队优化后成本降低 20%初创公司,提供一站式营销推广业务流量突发无法预测已有系统难以承载优化后一天 200 元支撑了 50 万日活Serverless 应用引擎 SAE:新负载、新场景、新工具Serverless

    73、 应用引擎 SAE:新负载、新场景、新工具新负载支持 Kubernetes CronJob 以及开源 Apache ElasticJob、XXL-JOB 的无缝迁移任务跑完立即释放计算资源,更节省更省心更稳定Job 工作负载正式商业化Serverless 应用引擎 SAE:新负载、新场景、新工具新负载支持 Kubernetes CronJob 以及开源 Apache ElasticJob、XXL-JOB 的无缝迁移任务跑完立即释放计算资源,更节省更省心更稳定Job 工作负载正式商业化新场景提供 Kubernetes Service 注册发现,支持 PHP、Python、Go 等运行时,支持gR

    74、PC 等多种协议基于 eBPF 提供通用的微服务可观测能力支持多语言微服务场景Serverless 应用引擎 SAE:新负载、新场景、新工具新负载支持 Kubernetes CronJob 以及开源 Apache ElasticJob、XXL-JOB 的无缝迁移任务跑完立即释放计算资源,更节省更省心更稳定Job 工作负载正式商业化新场景提供 Kubernetes Service 注册发现,支持 PHP、Python、Go 等运行时,支持gRPC 等多种协议基于 eBPF 提供通用的微服务可观测能力支持多语言微服务场景新工具支持 Serverless Devs 一键部署SAE支持 Terrafo

    75、rm 自动化运维支持 Jenkins 插件实现应用自动部署更新丰富工具链千行百业背后的 Serverless 力量阿里云 Serverless 服务于互联网、金融、零售、游戏、传媒、交通、教育、文旅、医疗、能源、制造、通信等 12 大行业,60+业务领域,百万开发者流量脉冲、流量潮汐场景GPU 场景敏捷应用开发场景泛 WEB/API 应用场景微服务场景事件驱动和任务处理场景互娱/教育拉流/推流内容送审浏览器录制音视频转码游戏游戏中台IM打包分发战斗结算新零售/电商前端 BFF电子价签商城/支付秒杀/大促传媒/医疗微服务图片识别ETL数据采集人工智能GPU 虚拟化弹性 GPU算法推理能源/制造/

    76、文旅架构升级数据分析IoT物流THANKS 新东方 Serverless 实践之路么敬国新东方教育科技集团云教室直播平台技术负责人未来已来:从技术升级到提效降本新东方集团云教室直播平台技术负责人曾在IBM做分布式数据存储和流程引擎的研发,以及大数据查询语言的设计和研发。天涯社区大数据平台研发负责人。技术兴趣点是分布式系统和数据库系统。参与分布式数据库系统 CockroachDB 的研发。CockroachDB 的社区 member。么敬国个人介绍Contents目录01业务介绍02Serverless 技术探索03价值收益基于 Serverless 函数计算 FC 的选型思考深耕教育场景,专业

    77、在线课堂1.以学生全面成长为核心2.以科技为驱动力的综合性教育集团云 课 堂云 点 播云 直 播智 慧 教 室18个行业场景:教育、政企、互联网32项互动设计:白板、黑板、坐席26项技术特色:安全、稳定、易用3W家企业客户的信赖 互动性强基于RTC的低延迟直播,可以实现良好的课堂互动,保障课程中的教学互动,激发学生兴趣。教学更具针对性教室能够基于学生的课堂反馈或互动测评,对于教学环节做微调,从而让教学过程更有针对性。教学效果更有保障通过互动和课堂答疑,让整个教学过程和教学效果更有保障。直播场景录播场景 学习时间更加灵活通过录制,让学生可以随时做课程回放,自主学习,不受固定课表的限制。按需分段重

    78、放录播+云上剪辑,可以方便地实现课程内容拆条,通过索引,能够快速定位知识点,按需、多次重放学习。知识点与课后服务关联基于拆条和知识点的录播,可以与更多业务场景整合,如作业、小测验,题目直接关联对应的知识点视频,实现更好的课后服务体验。云端录制+云上剪辑+全平台播放新东方视频中台直播+录播是新东方主推的课程交付模式转向客户端录屏服务端录屏容错性不好失败率高灵活性不好截屏效果不佳直播录制视频标准化生产技术如何选型?当前面临的挑战2SaaS 方案3Serverless 方案优势自主可控,灵活性高研发投入小,免运维按需使用成本低,标准化相对容易劣势理念新,有一定的上手成本1ECS 自建优势:自主可控灵

    79、活性高劣势:研发投入大运维复杂资源成本高标准化难优势:标准化方案研发投入小运维工作少劣势:灵活性差资源成本极高性能优化难技术选型之路业务需求1.要求自主可控,自研算法单流转码和混流转码,自定义转码格式2.要求10秒内启动,2秒内开始录制3.要求资源交付快,峰值并发3500路,平均录制时长90分钟,录制完成后10分钟内完成所有格式转码1.超高的灵活性:流程自定义,可部署自研算法,上线时间缩短50%+2.简单免运维:资源交付快,弹性能力强,转码效率提升 50%+3.降本空间大:按需使用,按量付费,业务成本比自建还要再节省30%+方案价值小试牛刀:函数计算录播转码方案业务需求FC直播录屏消息MNS/

    80、异步调用SDK任务调度NASFC 合流转码OSS1.要求灵活自定义,模拟Linux Chrome,通过FFmpeg完成采集录制,通过缩放、全屏,保证最佳录屏效。2.要求业务效率高,直播时长约45min,单个房间 鉴权-Dubbo 调用运营端C端HTTP 协议转换网关基于 Apache ShenYu 改造服务实例隔离服务实例隔离基于 Dubbo 版本Dubbo ServiceA,v1Dubbo ServiceA,v2禾连云原生微服务未来规划未来规划HTTP Gateway全量的 HTTP 协议网关Service Mesh 的控制面MSE 微服务治理Service AMQService CServ

    81、ice A*Service C*reqreq*THANKS 邓志豪2022.11杨秋弟(曼红)阿里云智能高级产品专家Apache RocketMQ 联合创始人消息队列 RocketMQ 5.0从消息服务到云原生事件流处理平台诞生2012 年商业化2016 年ApacheTLPRocketMQ5.02017 年云原生时代 RocketMQ 5.0 发布消息队列 RocketMQ:十年磨一剑 出鞘必锋芒Apache TLP 毕业RocketMQ 4.0 正式发布2022 年阿里集团RocketMQ 诞生阿里云云计算时代 RocketMQ 商业化开源和商业齐头并进共同迈入云原生时代RocketMQ

    82、5.0:从消息服务到云原生事件流处理平台*以上数据来源于阿里云事件驱动微服务集成:主流微服务生态集成联动事件驱动:Serverless 事件触发引擎通知推送:移动端、SaaS等多端投递网关调用:云服务统一网关集成事件流CDC:低延迟、一对多订阅ETL:低代码、模板化处理连接器:标准协议、统一连接流查询计算:轻量化、内聚查询处理多样性:丰富的消息类型,消息治理等完善的企业级特性一致性:事务消息、消息消费、广播消费稳定性:容灾多活、安全巡检等金融级可用性与可靠性高性能:低延迟、百万级客户端实例、无限扩展消息服务RocketMQ轻量化高可用可观测云原生架构升级弹性RocketMQ 5.0:云原生架构

    83、升级弹性存算分离,无状态计算节点,海量分级存储高可用Leaderless 多副本策略,多 AZ/Region 组建 Geo 高可用轻量化轻量无状态,Serverless 友好,覆盖主流多语言 SDKRocketMQ云原生内核架构NameServer 集群IaaS基础设施计算云存储VIPName ServerLB Group轻量接入层管控链路富客户端轻量级SDKgRPCProxyName Server云原生可观测SLSARMSAPI互补MQTT ProxyAMQPProxyRemoting 协议gRPC 协议计算集群StoreStoreStoreStoreStoreStore存储集群单副本双副本

    84、三副本云原生-容器服务(Kubernetes)EventProxy访问控制多租隔离领域模型数据加密限流降级计量计费负载均衡可观测VPC 网络云原生基础设施运维体系 Kubernetes 化,云原生可观测RocketMQ 5.0:按消息消费模型队列存储:按队列模型队列消费:按消息模型C1C2C3消息发送消息消费不可见可见删除超时可见定时不可见消息消费消息确认可见RocketMQ Proxy 按消息消费模型队列队列Consumer1Consumer2消费:按队列模型队列 按队列消费模型鱼与熊掌兼得 同时支持队列和消息两种消费模型,更好适配消息和流的场景轻量无状态 客户端无状态、连接无状态、消费无状

    85、态消息级可控 只需要关心消息而无需关心队列,所有API都可以做到消息级可控RocketMQ 5.0:海量消息分级存储RocketMQ 分级存储架构海量数据存储空间:海量数据,无限存储空间存储时长:超过 30 天自定义保存时长自适应弹性消息存储 Serverless 化,按实际存储使用量付费分级存储,对比自建三副本存储,成本降低 67%*以上数据来源于阿里云更高性能计算层代理冷热数据读写分离,收发相互隔离冷数据碎片规整,冷读堆积场景性能更稳定C ol d D ata C ol d D ata M anagerM anagerH ot D ata H ot D ata M anagerM anag

    86、erM sgM sg999999M sgM sg998998C ostl y SSDC ostl y SSDM sgM sg100100M sgM sg101101M sgM sg102102M sgM sg0 0M sgM sg1 1M sgM sg2 2M sgM sg700700M sgM sg701701M sgM sg7027021 day1 day3 days3 daysN daysN daysU nl i m i ted U nl i m i ted Low-cost StorageLow-cost StorageM Q ServerM Q ServerB rB rokeroke

    87、rRocketMQ 5.0:售卖系列全线升级,最高降本 50%接入门槛低至390元/月计算成本平均下调50%存储成本对比自建降低67%RocketMQ 5.0 售卖系列标准版系列专业版系列铂金版系列(入门、小规模)(推荐、大规模)(定制、超大规模)RocketMQ 5.0 付费方式预付费(资源预购、高性价比)按量付费(按需使用、短周期性项目)RocketMQ 5.0 计费项计算规格存储规格公网规格(收发峰值 TPS)(按实际存储空间)(可选配置)*以上数据来源于阿里云EventBridge:云上事件枢纽基于 RocketMQ 之上的事件驱动架构实践*以上信息来源于阿里云云服务集成应用数据第三方

    88、 SaaS事件驱动多端投递事件过滤事件回溯事件转换事件流数据 ETL数据转储数据拓扑增强数据集成RocketMQ 5.0+函数计算 FC跨域集成跨云集成跨网集成跨设备集成事件仪表盘全链路事件追踪聚合分析Schema注册/生成统一连接器事件生态工具链事件源事件目标更多.计算类(FC,SAE)通知类(钉钉,短信)数据库类(RDS、MongoDB)通用(HTTP/HTTPS)消息类(RocketMQ,Kafka)更多 事件驱动引擎海量事源,毫秒级触发能力,加速企业EDA/Serverless 架构升级开放集成提供丰富的跨云、跨地域、跨账户连接能力,促进云产品、应用程序,SaaS服务相互集成低代码通过

    89、规则与模板实现事件分发、过滤、转换等处理统一事件枢纽统一事件界面,定义事件标准,打破云产品事件孤岛让消息无处不在,让事件无所不及*以上数据来源于阿里云RocketMQ Streams:轻量级计算的新选择*以上数据来源于阿里云RSQLDBJohn16Alice27Bob26NameGradeAgeAPPIoTDataAPPIoTDataStreamStreamgRPCremotingHTTPMQTTAMQPFlink/sparkDBFile/LogLakeHousegRPCremotingHTTPMQTTAMQPFlink/sparkDBFile/LogLakeHouse轻量级框架依赖环境轻,最

    90、低 1c1g 资源即可部署运行升级发布简单,支持 SQL 热升级发布高性能实时处理基于 RocketMQ 存储引擎,毫秒级聚合计算SQL 优化器,性能提升 3-5 倍兼容主流算子支持千万级超大规模维表兼容 Flink 流处理算子功能,开发集成更方便RocketMQ 这十年,我们一同向前*以上数据来源于阿里云覆盖千行百业,累积服务 10w+企业客户75%头部互联网、金融等企业的大规模实践100%覆盖全集团业务,支撑万亿级消息洪峰阿里云商业全球 700+Contributor,1.8w+Star超过 80%主流云厂商提供 RocketMQ 商业化服务科创中国“开源创新榜”,中日韩开源软件优秀技术奖

    91、等Apache社区THANKS 杨秋弟(曼红)阿里云智能高级产品专家Apache RocketMQ 联合创始人消息队列 RocketMQ 5.0从消息服务到云原生事件流处理平台诞生2012 年商业化2016 年ApacheTLPRocketMQ5.02017 年云原生时代 RocketMQ 5.0 发布消息队列 RocketMQ:十年磨一剑 出鞘必锋芒Apache TLP 毕业RocketMQ 4.0 正式发布2022 年阿里集团RocketMQ 诞生阿里云云计算时代 RocketMQ 商业化开源和商业齐头并进共同迈入云原生时代RocketMQ 5.0:从消息服务到云原生事件流处理平台*以上数

    92、据来源于阿里云事件驱动微服务集成:主流微服务生态集成联动事件驱动:Serverless 事件触发引擎通知推送:移动端、SaaS等多端投递网关调用:云服务统一网关集成事件流CDC:低延迟、一对多订阅ETL:低代码、模板化处理连接器:标准协议、统一连接流查询计算:轻量化、内聚查询处理多样性:丰富的消息类型,消息治理等完善的企业级特性一致性:事务消息、消息消费、广播消费稳定性:容灾多活、安全巡检等金融级可用性与可靠性高性能:低延迟、百万级客户端实例、无限扩展消息服务RocketMQ轻量化高可用可观测云原生架构升级弹性RocketMQ 5.0:云原生架构升级弹性存算分离,无状态计算节点,海量分级存储高

    93、可用Leaderless 多副本策略,多 AZ/Region 组建 Geo 高可用轻量化轻量无状态,Serverless 友好,覆盖主流多语言 SDKRocketMQ云原生内核架构NameServer 集群IaaS基础设施计算云存储VIPName ServerLB Group轻量接入层管控链路富客户端轻量级SDKgRPCProxyName Server云原生可观测SLSARMSAPI互补MQTT ProxyAMQPProxyRemoting 协议gRPC 协议计算集群StoreStoreStoreStoreStoreStore存储集群单副本双副本三副本云原生-容器服务(Kubernetes)E

    94、ventProxy访问控制多租隔离领域模型数据加密限流降级计量计费负载均衡可观测VPC 网络云原生基础设施运维体系 Kubernetes 化,云原生可观测RocketMQ 5.0:按消息消费模型队列存储:按队列模型队列消费:按消息模型C1C2C3消息发送消息消费不可见可见删除超时可见定时不可见消息消费消息确认可见RocketMQ Proxy 按消息消费模型队列队列Consumer1Consumer2消费:按队列模型队列 按队列消费模型鱼与熊掌兼得 同时支持队列和消息两种消费模型,更好适配消息和流的场景轻量无状态 客户端无状态、连接无状态、消费无状态消息级可控 只需要关心消息而无需关心队列,所有

    95、API都可以做到消息级可控RocketMQ 5.0:海量消息分级存储RocketMQ 分级存储架构海量数据存储空间:海量数据,无限存储空间存储时长:超过 30 天自定义保存时长自适应弹性消息存储 Serverless 化,按实际存储使用量付费分级存储,对比自建三副本存储,成本降低 67%*以上数据来源于阿里云更高性能计算层代理冷热数据读写分离,收发相互隔离冷数据碎片规整,冷读堆积场景性能更稳定C ol d D ata C ol d D ata M anagerM anagerH ot D ata H ot D ata M anagerM anagerM sgM sg999999M sgM sg

    96、998998C ostl y SSDC ostl y SSDM sgM sg100100M sgM sg101101M sgM sg102102M sgM sg0 0M sgM sg1 1M sgM sg2 2M sgM sg700700M sgM sg701701M sgM sg7027021 day1 day3 days3 daysN daysN daysU nl i m i ted U nl i m i ted Low-cost StorageLow-cost StorageM Q ServerM Q ServerB rB rokerokerRocketMQ 5.0:售卖系列全线升级,最

    97、高降本 50%接入门槛低至390元/月计算成本平均下调50%存储成本对比自建降低67%RocketMQ 5.0 售卖系列标准版系列专业版系列铂金版系列(入门、小规模)(推荐、大规模)(定制、超大规模)RocketMQ 5.0 付费方式预付费(资源预购、高性价比)按量付费(按需使用、短周期性项目)RocketMQ 5.0 计费项计算规格存储规格公网规格(收发峰值 TPS)(按实际存储空间)(可选配置)*以上数据来源于阿里云EventBridge:云上事件枢纽基于 RocketMQ 之上的事件驱动架构实践*以上信息来源于阿里云云服务集成应用数据第三方 SaaS事件驱动多端投递事件过滤事件回溯事件转

    98、换事件流数据 ETL数据转储数据拓扑增强数据集成RocketMQ 5.0+函数计算 FC跨域集成跨云集成跨网集成跨设备集成事件仪表盘全链路事件追踪聚合分析Schema注册/生成统一连接器事件生态工具链事件源事件目标更多.计算类(FC,SAE)通知类(钉钉,短信)数据库类(RDS、MongoDB)通用(HTTP/HTTPS)消息类(RocketMQ,Kafka)更多 事件驱动引擎海量事源,毫秒级触发能力,加速企业EDA/Serverless 架构升级开放集成提供丰富的跨云、跨地域、跨账户连接能力,促进云产品、应用程序,SaaS服务相互集成低代码通过规则与模板实现事件分发、过滤、转换等处理统一事件

    99、枢纽统一事件界面,定义事件标准,打破云产品事件孤岛让消息无处不在,让事件无所不及*以上数据来源于阿里云RocketMQ Streams:轻量级计算的新选择*以上数据来源于阿里云RSQLDBJohn16Alice27Bob26NameGradeAgeAPPIoTDataAPPIoTDataStreamStreamgRPCremotingHTTPMQTTAMQPFlink/sparkDBFile/LogLakeHousegRPCremotingHTTPMQTTAMQPFlink/sparkDBFile/LogLakeHouse轻量级框架依赖环境轻,最低 1c1g 资源即可部署运行升级发布简单,支持

    100、 SQL 热升级发布高性能实时处理基于 RocketMQ 存储引擎,毫秒级聚合计算SQL 优化器,性能提升 3-5 倍兼容主流算子支持千万级超大规模维表兼容 Flink 流处理算子功能,开发集成更方便RocketMQ 这十年,我们一同向前*以上数据来源于阿里云覆盖千行百业,累积服务 10w+企业客户75%头部互联网、金融等企业的大规模实践100%覆盖全集团业务,支撑万亿级消息洪峰阿里云商业全球 700+Contributor,1.8w+Star超过 80%主流云厂商提供 RocketMQ 商业化服务科创中国“开源创新榜”,中日韩开源软件优秀技术奖等Apache社区THANKS CNStack

    101、2.0 全新升级谢吉宝(唐三)阿里巴巴资深技术专家、阿里云智能云原生 PaaS 负责人助力企业高效用云CNStack:云原生时代的技术中台云原生技术中台(CNStack)异构IaaS(虚拟机、物理机、一体机、多厂商、多芯片架构)各类政府部门行业中台其它各类行业中台自研CRM、ERP等其它自持系统(如运营支撑系统)各类政企行业应用Kubernetes发行版服务市场微服务、DevOps开发框架企业数字化转型常见困难合作伙伴业务方可观测安全生产开源技术更新快选型维护难度大生产运维经验不足稳定性不够开发阶段环境获取成本高不同业务方技术底座适配工作量大高 效 用 云,让 企 业 数 字 创 新 只 需

    102、专 注 业 务 本 身!CNStack 2.0应用交付平台社区版CNStack LocalCNStack Online标准版ACK Distro平台管理能力中心企业服务运维服务资源服务(集群、分布式存储、虚拟网络、备份冗灾、负载均衡、证书)工作负载(有/无状态、批处理、混部调度)应用场景容器云分布式应用云边协同DevOps资源优化AI/大数据业务中台在线集成在线验证在线交付在线演示同标准同架构同体验同发布与标准版阿里云官网免费下载,社区论坛免费技术支持云 服 务(多集群、虚拟化、分布式应用、边缘应用、DevOps)云 组 件(消息、数据库、缓存、大数据、网络扩展)异构IaaS业 界 首 款 云

    103、 原 生 技 术 中 台 产 品!CNStack 2.0 重磅升级支持不同厂商、不同架构、CPU/GPU算力混合管理支持管理容器、虚拟机多种负载的混合调度能力统一算力管理应用开发、测试、运维全生命周期一站式管理容器服务、分布式应用、云边、DevOps全场景覆盖能力中心组件丰富,为业务创新,提供全技术栈支持能力中心组件经过测试验证,运维及稳定性有保障一站式应用管理丰富易用的能力中心容器云场景数据中心资源利用率不高普遍在6%12%容器化与虚拟化的复合架构带来的额外成本容器化业务对基础服务的依赖复杂,需要用户自行解决在离线混部资源画像容器VM混合编排GPU共享隔离服务目录云服务动态扩展资源利用率可大

    104、幅提升混合架构实现资源共池降低成本,简化运维一站式解决基础服务的依赖痛点解决方案价值容器云场景客户案例 某头部手机厂商客户价值全网数万台服务器CPU平均利用率约20%上下,存在大量的优化空间知道混部可大幅提升利用率,但其技术复杂,需要一套成熟解决方案应用发布者对资源用量无感,对应用的资源申请往往就高不就低AI需求众多,但GPU资源昂贵,需要一套调度和隔离能力,保障资源充分利用,又不相互影响。大幅提升了集群的资源利用率(包括通用计算资源和GPU资源),从而大幅降低服务器采购成本通过与OS的深度集成,具备了多各种底层资源的隔离能力,从而使RT延时大幅降低,充分保证了在高负载情况下的系统稳定性客户架

    105、构图资源优化对象OpenAnolis+AN-CK内核CPUshare资源隔离能力内存隔离磁盘IO隔离网络限速GPU隔离网络QoS监控指标采集(walle)高 效 能 容 器 云在离线混部智能推荐弹性QuotaGPU调度重调度多 种 工 作 负 载在线高优任务大数据离线任务AI训练/推理任务客户痛点分布式应用场景传统应用上云成本高技术选型多样,维护难度大应用运维、稳定性要求高应用运行物理隔离运行、运维成本高统一管控及体验API网关应用全生命周期微服务治理统一应用托管统一应用抽象已有微服务应用无需改造,分钟级即可完成容器化托管全面管理微服务应用生命周期联动发布管理和流量控制功能保障应用发布期间业务

    106、平稳运行多维度对微服务进行展现与治理降低运维和管理应用的综合成本痛点解决方案价值场景描述及概要分布式应用场景在保证业务稳定性的前提下,围绕业务成本视角,提供全局的成本洞察与成本优化能力提供业务视角的资源视图与成本视图,方便企业以业务为维度评估资源使用情况配合业务视角的全链路灰度与全链路弹性能力,让资源全局趋优基础使用团队协同业务稳定应用间通信应用管控、应用编排、服务注册发现、服务调用、APM、链路追踪DevOpsJenkins 等产品对接、OpenAPI、流水线、一键建站(Terraform 等)企业级能力异构语言应用通信、操作审计、资源归属、权限控制安全应用级访问安全、运行时内容安全、调用间

    107、鉴权、框架兜底流量治理优雅上线下、金丝雀发布、流量预热、限流降级等成本优化业务高效公共云已上线CNStack 2.1同步EDAS ATC四图合一部署架构图业务 SLA 视图业务资源视图业务成本视图开源解决方案:Kubernetes+SpringCloud+Skywalking企业级分布式应用服务(EDAS)商业化产品业务成本视图、全链路弹性、归 0 弹性、在离线混部、开发环境分流多路复用、多集群应用、多态资源混合调度等分布式应用场景客户案例 某大型能源集团虚拟机操作系统存储网络计算IAAS分布式应用云原生CNStack容器全栈可观测服务网关分布式事务流量防护用户中心采购中心电力交易评价中心搜索

    108、中心资金中心资产中心调度中心生产中心订单中心支付中心内控中心服务中心业务应用工程建设电力生产生态环保新能源开发资产管理客户价值各开发商技术栈不统一,难以管理和整合研发、交付和运维责任边界模糊,责任人不明确缺少统一可观测体系,支撑业务系统的上线运行对未来云原生PaaS体系该如何支撑业务发展有强烈诉求客户全集团统一云原生技术体系,云原生能力全集团共享提供稳定的客户业务支撑能力,所用架构可升级、可拓展,满足客户未来五年内的发展要求客户痛点云边协同场景资源分散,网络不可靠,无法统一运维应用部署运维没有高效手段多个场站,多种供应商,资源无法灵活分配和隔离,没有统一管理手段基于OpenYurt的边缘容器能

    109、力应用的批量和灰度管理中心化的统一运维管理平台多租、多项目的资源和用户体系提升运维效率,降低运维成本提升应用稳定性和安全性资源灵活分配,降低资源成本痛点解决方案价值客户价值客户痛点边缘场景客户案例-龙源电力风场位置分散、偏远,需要逐个站点和应用进行单独维护,效率低,无法法在中心侧统一管理每上线一个新的业务系统,每个站点都需要做繁琐的重复工作应用大部分是ISV提供,为了应用之间的隔离,防止扯皮,经常采用物理隔离,资源利用率低容器应用与虚机应用并存,每个站点资源有限,无法为每个站点建立一套完整的私有云平台通过基于OpenYurt的边缘容器技术,实现云边协同的应用和资源管理,实现中心化统一运维,提高

    110、运维效率通过多租及配额体系,实现多个ISV的在一个平台上工作,实现高效协同和有效管理通过一个资源调度平台,同时管理容器和虚机应用运行时,实现资源共池,降低建设成本和资源成本CNStack,高效用云,让企业数字创新只需专注业务本身!THANKS 数字化安全生产平台DPS重磅发布周洋阿里云智能资深技术专家,高可用架构负责人助力传统运维向SRE转型Contents目录01安全生产的理念和价值02数字化安全生产平台(DPS)发布场景一:分布式系统面临稳定性保障新挑战分布式技术蓬勃发展知名互联网故障流量防护应用多活混沌工程可观测ACOS近年来,虽然稳定性关注度日益提高,新技术蓬勃发展,重大故障依然频发且

    111、影响巨大。技术的不恰当使用、人为操作失误、硬件故障、自然灾害、安全攻击依然给生产稳定性保障带来极大风险 2022.10,韩国数据中心发生火灾,导致多家网络平台瘫痪 2021.10,某证券IDC故障2小时,导致客户无法交易,产生资损 2021.10,某社交平台,因配置变更故障中断6小时,影响数亿用户,市值减少数百亿美元 2021.7,某视频网站,服务器故障3小时造成服务器无法访问,引发影响用户体验 2020.3,美国某云服务商,因冷却系统故障导致断电停机,影响计算、存储、网络以及其他服务,时长6小时 2020.6,因第三方网络提供商错误路由,影响某IT公司多个地域及其他80多个数据中心,时长4小

    112、时 2020.7,某云服务平台,因全球骨干网网络配置错误,网络流量下降50%,时长27分钟 2020.11,美国某云服务商,核心服务扩容引起雪崩效应,影响多个关联云服务,时长十数小时 2020.12,某互联网服务全球大面积瘫痪,由于存储配额系统的身份验证服务故障,影响多个基础服务,时长47分钟全链路压测分布式应用服务云原生DevOps持续交付容器微服务场景二:政策引导IT系统稳定性建设平稳推进随着数字化转型政策的推进,越来越多“国民级应用”诞生。“国民级应用”的突出特点是用户群体范围广、数量多、使用时间长,同时也有业务迭代周期短、故障影响面大的隐含特点。“国民级应用”需要最短时间完成稳定性积累

    113、,少走弯路。数字政府网上办事大厅、数字防疫医疗健康智慧医疗、全国联保新零售智慧门店、全域营销金融互联网银行、智能风控交通物流智慧收费、出行服务能源水利精准预测、智慧水利生产制造生产调度、工业检测游戏云游戏、AR/VR场景三:传统运维手段已无法满足要求SRE的核心理念是通过软件来管理系统,解决问题和自动化完成操作工作。Platform Ops(平台运维)是一种创新运维理念,将基础设施、运维、云管理纳入一个发展方向规划,成为推动企业 IT 架构持续演进和管理的核心力量。资料来源:Gartner Infrastructure,Operations and Cloud Management Prime

    114、r for 2022资料来源:Google Site Reliability Engineering“安全生产”的核心理念和方法论为预防生产过程中发生人身、设备事故,形成良好劳动环境和工作秩序而采取的一系列措施和活动。辞海中,“安全生产”的解释:为提升生产系统业务连续性、灾难恢复能力,建设高可用架构系统和SRE型运维团队而采取的一系列措施和活动。在阿里巴巴的多年技术演进中,赋予了“安全生产”在IT软件领域的新解释:可用性:99.99X%灾难恢复:RTO30s,RPO0组织效能:1-5-10牵引指标可用性改进可靠发布效能提升故障管理应急处理演练验收SRE型组织容错架构容灾架构快恢自愈可观测性容量

    115、规划可防护性高可用架构灾难常态核心方法论数字化安全生产平台是什么?平台定位浓缩阿里巴巴十年运维经验,以PlatformOps为理念,以保障业务连续性为目标的一站式管控SRE运维平台行业方案质效医保数字化防疫金融核心系统上云新零售大促保障业务场景场景一:“1-5-10”故障快恢场景二:“变更三板斧”故障预防重启回滚扩容切流限流降级灰度发布应用监控应用回滚事前准备风险挖掘故障等级定义监控配置1分钟发现5分钟处10分钟恢复故障通告故障响应故障快恢事中应急业务目标方案能力服务支撑产品能力变更接入变更规则设定回滚预案可观测可灰度可回滚变更灰度变更观测变更回滚全链路监控服务故障应急服务演练评测服务变更准备

    116、变更执行业务目标变更管控服务告警域监控域故障域预案域快恢域变更域演练域工单域数字化安全生产平台的亮点场景化产品理念数字化管理流程云原生平台架构发布场景一:“1-5-10”故障快恢目标:提升故障1分钟发现,5分钟响应&定位,10分钟恢复能力,缩短故障恢复时长,降低故障影响面风险业务组织我的工作台故障单管理业务监控大盘安全生产运营大盘全链路监控结果业务场景梳理故障结构化定义智能告警故障通告快恢能力建设业务风险应用风险系统风险历史故障业务特征业务架构业务场景系统架构研发运维测试产品业务负责人故障发现故障响应&定位故障恢复应急协同CHATOPS业务初因定位应用根因定位快恢系统集成快恢预案编排快恢预案推

    117、荐1-5-1 门户数据报表故障报表事件报表团队报表人员评价重大故障收敛无重大故障时长(MTBF,MTTR)业务可用性指标(SLO,SLI.)故障1分钟发现业务场景产品线染色全链路监控终端体验管理业务监控应用监控容器监控云平台监控基础设施监控故障场景结构化全息链路治理全量监控数据业务全链路业务场景业务场景业务场景业务链路业务链路业务链路应用链路应用链路应用链路故障场景故障场景故障场景P1-P4(业务受损程度)D1-D4(数据影响)E1-E4(舆情影响)数据智能告警故障通告故障定级压缩上报事件降噪事件过滤事件钉钉短信电话故障5分钟响应&定位信息反馈故障更新故障查询值班人员产研技术支持决策领导层信息

    118、事件故障异常告警异常告警工单故障通告故障动态智能定位全链路诊断事件关联问题根因链路指标关联下钻根因判定根因报告InsightCHATOPS人员处置安全生产服务组故障签到故障定位人员协同故障快恢故障10分钟恢复1.切流秒级。应对单元维度,机房维度,机器维度切流2.降级秒级。若是链路弱依赖,先降级再排查3.限流秒级。保护绝大部分流量4.扩容秒级或分钟级。流量暴增时扩容前先集群限流或单机限流,防止雪崩5.回滚分钟级。回滚前先机房隔离或切容灾,防止回滚时间较长升级故障6.重启分钟级。应对内存溢出,fullgc连接数满,环境机器不确定性原因等面向不同时效和场景的六大快恢能力抽象基于“标准”实现,支持常见

    119、实现基于“发现、定位”的辅助推荐基于“恢复时效”的优化建议发布场景二:“变更三板斧”故障预防目标:业务全方位变更管控,可灰度、可回滚、可观测,避免因变更导致的重大故障变更系统监控中心快恢中心应用发布应用回滚配置变更数据库操作实例操作网络变更资源监控应用监控业务监控告警事件故障根因定位智能分析切流降级限流扩容回滚重启自定义预案我的工作台故障单管理业务监控大盘运维日历变更门户API 模式SDK 模式系统识别/接入时间线规则产品线规则变更准入门槛应用规则规则编排/规则组规则校验变更阻断变更执行检测变更观测配置变更智能风控观测稳态度量引擎灰度分批强管控变更影响面感知及预案关联可疑变更推荐自定义审批流一

    120、键审批变更审批自动化免批审批策略定义审批流可审计变更统一管控白屏化集中管控变更统一管控可灰度可回滚可观测Check APIQuery APICreate APIUpdate API接入网关Recheck API数字化管理流程故障概况:纵观业务全局,业务域的健康度以及出现问题的子业务1-5-10应急度量1-5-10实际度量与目标度量故障发现故障发现达标率,以及直接影响因素达标率故障响应故障响应达标率,以及故障签到率,当前故障响应人员,定位实时播报故障恢复故障快恢达标率,了解故障快恢建设情况,从覆盖率以及有效率故障概况查看整体历史故障趋势应急值班直观了解当前应急值班人员繁忙度,从而进行人员调度实时

    121、监测监控预警实时播报,发现潜在风险实时变更当天变更实时播报,了解变更整体概况云原生平台架构开发者DPS PODCustom ResourceRecoveryProductAlertProductMonitorProductChangeProductOperatorProduct PodMSHA PODEDAS PODECS POD自定义 POD修改DPS Cluster ControllerGatewayConsoleAlertMonitorMSHAAPI管理阿里云Product ControllerInstance ControllerJob Controller异构云自建IDCEDAS三方系统ACOSTHANKS

    展开阅读全文
    提示  三个皮匠报告文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:阿里云:2022云栖大会-云原生峰会PPT合集(239页).pdf
    链接地址:https://www.sgpjbg.com/baogao/106492.html
    联系我们 - 网站声明 - 网站公告 - 侵权处理 - 免责声明 - 版权申诉 - 关于我们 - 常见问题 - 网站地图 - 用户协议 - 认证协议

    copyright@ 2008-2013        长沙景略智创信息技术有限公司版权所有
    公安局案号:湘公网安备 43010402001071号 | 工信部备案号:湘ICP备17000430号-2 | ICP经营许可证:湘B2-20190120 | 出版物经营许可证:新出发岳文字第43010420211号