《孙伟祥-混合云架构下的小红书联邦集群弹性调度实践和探索.pdf》由会员分享,可在线阅读,更多相关《孙伟祥-混合云架构下的小红书联邦集群弹性调度实践和探索.pdf(25页珍藏版)》请在三个皮匠报告上搜索。
1、孙伟祥目录背景说明业务视角的混合云架构 多云提供商:多云提供商:阿里云、腾讯云、AWS、华为、火山、自建云 多区域部署:多区域部署:上海、南京、杭州、芜湖、乌兰、海外 多形式部署:多形式部署:在线核心链路异地多活;离线链路、LLM推理全域部署理想中资源视角的混合云架构现实中资源视角的混合云架构核心解决思路向上对业务屏蔽集群概念向上对业务屏蔽集群概念向下对资源调度合池统一向下对资源调度合池统一解决方案核心特性 统一接入界面 统一资源调度 统一应用编排核心特性架构实现预调度多层调度核心特性跨集群弹性方案落地单个服务处理的相关数据上10T搜广推等模型计算量巨大搜广推结合LLM已成为业务架构新范式数据
2、分批等需求导致编排复杂度增加有状态工作负载能力增强 支持生成指定下标的Pod,灵活分配 Pod 下标 支持以下标格式在Status中汇总被管控Pod的状态,便于多集群精准感知负载状态多集群调度器支持有状态服务调度编排 根据单集群工作负载Status精细化编排调度,为用户提供和单集群视角下一致的使用体验 多集群重名 Pod 冲突处理,保证多集群下 Pod Name 唯一性联邦Rollout组件支持有状态服务滚动发布 根据单集群工作负载Status实现多集群工作负载滚动发布,提供单集群一致的发布体验跨云弹性解决自建云困境 自建机房二层网络与云上异构,集群无法跨机房添加云上节点“TT难民”流量来的突
3、然,自建机器采购周期难以满足突增流量 内部微服务体系调用链长且服务,入口流量调配风险大 通过联邦将突增副本需求跨云分发到云上集群,使得IDC近似云上“无限弹性”统一GPU推理资源池 全局层面统一弹性副本编排 有效合并部署组数量,提高运维效率 有效减少空转服务,充分释放已分配未使用 GPU,提升GPU 利用率 充分利用集群间碎片资源,提升 GPU 分配率联邦前联邦后 哪里有卡去哪开机器导致资源分散 部署跟着资源走导致部署割裂,,每个部署组 HPA 只少保留1个副本 缺乏全局层面视角编排和弹性能力,造成分配率和利用率低下 统一资源池,用户部署不再关心具体集群甚至地域、提供商 统一副本编排和调度,充
4、分利用跨集群资源,提升弹性能力多级缓存解释 对象存储作为底层,存储全局索引、模型等数据 机房内利用碎片资源进行p2p 加速和热点数据缓存,减少跨机房访问延迟和带宽 单 Pod 利用云盘或者本地盘缓存服务关注的热点数据,避免发布、重启后重复拉取 一些数据引擎服务、LLM 推理服务 Tmpfs volumes 预加载数据和模型,结合原地升级能力,真正做到零copy,做到极致效率Podcontainer v1Sandbox(Network&Storage)Podcontainer v1Sandbox(Network&Storage)Container memoryMemory-Based Empty
5、Dir(tmpfs volumes)Podcontainer v2Container memorycontainer v2RecreateinPlaceUpdate重建升级Tmpfs Volumes+原地升级Remote联邦集群支持在离线GPU统一资源池调度 联邦集群调度、二次调度保证在离线GPU服务能够充分利用跨集群资源,离线服务做到哪里有资源就去哪调度GPU 卡“超分配”与计算资源保障 一卡多分配,混部 Agent 保证显存不超卖(通过驱逐离线)多级缓存助力在线实例弹性加速 StandBy 实例通过多级缓存加速预加载模型和数据到 Tmpfs 在线任务需要扩充计算资源是,StandBy 实例迅速加载模型到GPU,实现模型的秒级弹性规划展望 场景覆盖:AI训练&Spark 能力迭代:调度决策上移等总结回顾 核心问题:资源割裂,效能低下 解决路径:集群联邦,统一资源池 落地探索:搜推与LLM的落地与探索