《肖潇《边缘容器在全球音视频场景的探索与实践》.pdf》由会员分享,可在线阅读,更多相关《肖潇《边缘容器在全球音视频场景的探索与实践》.pdf(35页珍藏版)》请在三个皮匠报告上搜索。
1、边缘容器在全球音视频场景的探索与实践肖潇 即构科技后台技术总监212100+300亿+30亿+国家地区覆盖行业解决方案覆盖年全球服务人次日通话分钟数全球实时音视频云服务商全球实时音视频云服务商ZEGO即构科技成立于2015年,是一家全球实时音视频云服务商。团队拥有20年行业技术经验积累,全链路自研音视频引擎与实时网络,首创直播连麦。ZEGO 服务全球,已为 212 个国家/地区提供一站式音视频云服务。服务覆盖至互动直播、在线教育、政企服务、社交娱乐、视频会议、游戏、金融、远程医疗、智能硬件等数百个应用场景。即构全球基础设施即构全球基础设施1.全球500+网络节点2.覆盖全球212个国家和地区3
2、.全球节点99.9%的优质传输率贴近用户,连通全球贴近用户,连通全球边缘计算:边缘计算:低时延、高带宽、高并发边缘计算的优势边缘计算的优势降低时延降低时延就近接入就近分发减少传输链路成本优化成本优化低成本的边缘带宽降低中心带宽提升并发提升并发多云多机房分布式部署按需扩容降低故障影响降低故障影响逻辑边缘下沉减少对中心机房的依赖边缘计算遇到的问题落地边缘容器面临的挑战实时互动业务的落地实践未来规划和技术展望边缘计算遇到的问题成本压力运维效率运维设施割裂 算力碎片化 不同集群边缘算力不能复用边缘工作负载:虚拟机和物理机边缘工作负载:虚拟机和物理机 基于告警事件来触发扩缩容 要关注服务实例和资源的扩缩
3、 控制面服务已经容器化,在边缘践行云原生极致的成本优化大幅提升运维效率边缘云原生 最大化利用算力和带宽 底层计算资源复用希望的工作负载:云原生的边缘容器希望的工作负载:云原生的边缘容器 弹性扩缩容、定时扩缩容 业务灵活的版本管理 构建云边一体化的云原生基础设施落地边缘容器面临的挑战没有统一的边缘容器标准没有统一的边缘容器标准各自开源各自开源了边缘计了边缘计算云原生项目算云原生项目 华为KubeEdge 阿里的OpenYurt 腾讯的SuperEdge相同的产品关键字产品关键字 云边协同 边缘自治 单元化部署KubeEdgeSuperEdge遇到的挑战遇到的挑战音视频业务是强有状态服务,如何云原
4、生化不同服务规格差异较大,如何调度如何做到pod多进程的灰度发布镜像如何快速分发、预热云边网络中断业务如何处理?云边通信流量成本如何提升运维效率实时互动业务的落地实践云边协同的全球音视频云架构云边协同的全球音视频云架构 多云基础设施 边缘容器 全球多中心 MSDN 全球传输网络1 成本优化成本优化 质量和运维效率提升 音视频服务云原生化23边缘资源的最大化共享边缘资源的最大化共享提升资源在池内的共享复用水平提升资源在池内的共享复用水平 不同业务集群资源的共享 不同业务角色资源的共享全局多级资源池调度全局多级资源池调度 多个资源池全局资源的复用 任意区域 N-2机房资源的冗余资源调度策略资源调度
5、策略目的:降低边缘node上的资源碎片 优先将Pod调度到资源消耗较多的节点 多个Pod会优先使用同一节点BinpackBinpack调度策略调度策略大幅降低云边通信流量大幅降低云边通信流量 避免使用Service和Endpointslices,大幅降低云边的数据通信量 边缘node的kubelet、Daemonset pod只List-Watch本节点数据 以Openyurt为例,通过Pool-Coordinator和Yurthub 的协同,实现单一节点池内云边只有一份pool scope data数据通信。云边断网 vs 部分节点失联1 成本优化 质量和运维效率提升 音视频服务云原生化音视
6、频服务云原生化23音视频服务是强有状态业务音视频服务是强有状态业务 网络模型:IP端口固定的无损直连 原地升级:镜像更新,pod不重建 镜像拉取耗时:容器更新,极短的推拉流中断 水平伸缩:各种自定义业务指标触发扩容,缩容有等待期、定向缩容 多进程协同:音视频引擎进程+业务处理进程,pod内多进程做到独立发布 定向运维操作的需求:赶流合服主机网络减少网络损耗主机网络减少网络损耗 主机网络host Network,无需经过额外的网络虚拟化层 Daemonset来分配pod端口,避免端口冲突实时互动场景对网络延时实时互动场景对网络延时/性能损耗敏感性能损耗敏感工作负载的选择、更新策略工作负载的选择、
7、更新策略 原地升级原地升级 +主机网络,实现主机网络,实现IPIP端口的稳端口的稳定定 标记标记podpod业务状态,指定业务状态,指定 pod pod 缩容缩容 主容器+sidecar 容器,独立灰度发布apiVersion:apps.kruise.io/v1alpha1kind:CloneSetspec:#.replicas:4 scaleStrategy:podsToDelete:-sample-9m4hpapiVersion:apps.kruise.io/v1alpha1kind:CloneSetspec:#.updateStrategy:type:InPlaceIfPossible
8、inPlaceUpdateStrategy:gracePeriodSeconds:10工作负载的选择、更新策略工作负载的选择、更新策略 原地升级+主机网络,实现IP端口的稳定 标记pod业务状态,指定 pod 缩容 主容器主容器+sidecar +sidecar 容器,独立灰度发布容器,独立灰度发布原地升级能解决所有的更新问题?原地升级能解决所有的更新问题?修改修改clonesetcloneset yamlyaml 其他内容?其他内容?clonesetMigration OperatorOperatorOperator:clonesetMigration 原地升级:原地升级:spec.temp
9、late.spec.containersx.imagespec.template.spec.containersx.image envenv fromfrom spec.template.metadata.labels/annotationsspec.template.metadata.labels/annotations镜像预热镜像预热 原地升级降低pod的启动耗时,提前预热降低边缘镜像拉取耗时 核心诉求是镜像预热还是大规模 P2P镜像分发?镜像预热镜像预热 VS P2PVS P2P镜像分发镜像分发ImagePullJob音视频场景下的弹性伸缩音视频场景下的弹性伸缩基于音视频业务状态的负载管
10、理多维度指标的综合评估(带宽、PPS、推拉流数、CPU、内存等)精确的缩容机制:需要做业务的无损清理,粗糙的缩容策略会造成用户黑屏、卡顿水平伸缩,但不同于社区的水平伸缩,但不同于社区的HPA HPA 方案方案Pod Pod 的业务状态的业务状态自然消亡、无损清理流量上涨1 成本优化 质量和运维效率提升质量和运维效率提升 音视频服务云原生化23网络质量:云边通道可靠传输网络质量:云边通道可靠传输MSDN全球传输网络 实时网络质量探测 智能路由算法,链路故障秒级恢复,大幅降低云边断网概率边缘资源池的智能化推荐、扩缩边缘资源池的智能化推荐、扩缩基于机器学习算法预测边缘机房未来利用率,生成扩容、缩容资
11、源 node 数自动进行边缘节点购买/纳管、cordon/drain/节点退订多集群管理多集群管理 全球资源统一管理 控制面多集群,横向扩展云边协同的另一种方式云边协同的另一种方式 边缘容器控制面所在 region故障,边缘自治,影响服务的扩容能力 多云商不同中心机房的 serverless 扩容多云多云serverless容灾容灾中心机房中心机房Serverless承载突发流量承载突发流量云边协同的另一种方式云边协同的另一种方式多云多云serverless容灾容灾 网络成本的最优组合:边缘带宽计费+serverless 流量计费 极致的弹性能力中心机房中心机房serverless承载突发流量承载突发流量未来规划和技术展望更全的业务覆盖降低业务接入使用门槛更多能力下沉边缘 更适合业务的调度算法 CPU拓扑感知调度 GPU调度 提供更多的能力抽象,分钟级部署 更多工具链建设,业务开箱即用技术展望技术展望 LoadBalance、网关、AI 推理谢 谢 观 看THANKS