《龙逸尘-腾讯云原生实时数仓建设实践 .pdf》由会员分享,可在线阅读,更多相关《龙逸尘-腾讯云原生实时数仓建设实践 .pdf(38页珍藏版)》请在三个皮匠报告上搜索。
1、龙逸尘/腾讯大数据高级工程师腾讯云原生实时数仓建设实践腾讯云原生实时数仓建设实践The Practice of Constructing Cloud Native Real-time Data Warehouse in Tencent实时数仓实时数仓挑战挑战#1实时数仓实时数仓演进演进#2实时数仓实时数仓实践实践#3实时数仓实时数仓展望展望#4目录目录#1#1实时数仓挑战实时数仓挑战实时数仓应用特点1 万+作业数57 万集群总核数65 万亿日均消息量时效性时效性架构复杂度架构复杂度成本成本数据准确性数据准确性实时数仓技术挑战#2 2实时数仓演进实时数仓演进全流程 T+0 级时效统一并简化数仓架
2、构保障数据准确性降低计算与存储成本实时数仓功能需求实时数仓演进-离线数仓数据源ODSODSDWDDWDDWSDWS离线数仓ADSADS用户ETLETLClickHouse 提供秒级查询能力实时数仓演进 Lambda 架构数据源ODSODSDWDDWDDWSDWS实时数仓ADSADS用户ETLETL实时数仓演进 Kappa 架构数据源ODSODSDWDDWDDWSDWS实时数仓ADSADS用户支持流、批写入支持增量读取基于快照回溯历史数据对大规模数据集进行更新删除提供 ACID 语义实时数仓演进-Iceberg 关键特性支持表、分区的Schama 变更抽象的表格式与计算存储引擎解耦实时数仓演进
3、基于数据湖 Iceberg 的架构数据源ODSODSDWDDWDDWSDWS实时数仓ADSADS用户实时数仓演进 云原生的价值 存算耦合 资源利用率低 成本高昂传统实时数仓痛点 存算分离 弹性计算 降低成本云原生架构的优势K8sCOS实时数仓演进 云原生实时数仓架构数据源实时数仓ODSODSDWDDWDDWSDWSADSADS用户台租户管理公共服务存储层计算层数据加速资源调度计算分析存储格式数据存储数据组织元数据管理数据血缘数据质量权限管理实时数仓演进 云原生实时数仓生态体系#3 3实时数仓实践实时数仓实践存算分离实践ClickHouse#2弹性计算实践Flink on Kubernetes#
4、1弹性存储实践Iceberg#3分析云原生实时数仓建设实践ServerlessServerless调度能力调度能力扩缩容速度扩缩容速度诊断调优诊断调优Flink on Kubernetes 面临的挑战DeploymentFlink on Kubernetes 方案IngressManagerFlink ClientDFS ServiceJobManagerDispatcherJobMasterResourceManagerInitialContainerPodTaskManagerInitialContainerK8s MasterConfigMapsServiceHA ServiceLogL
5、istenerFlink on Kubernetes-ServerlessManagerK8s MasterCVMPodJobManagerPodTaskManager1.提前购买 CVM2.申请资源3.申请 PodManagerK8s Master腾讯资源池PodJobManagerPodTaskManager1.申请资源2.按需申请 Pod4.调度 Pod3.调度 PodFlink on Kubernetes 自定义调度器Flink on Kubernetes AutoPilotFlink on Kubernetes 加速作业扩缩容Kubernetes MasterJobManager D
6、eploymentTaskManager PodSlot 1ResourceManagerSlotManagerInit-container1 申请 SlotJobMasterSlotPoolSlot 2Slot N2 申请 Pod3 通知申请进展3 分配并启动 Pod4 向 RM 注册 Slot5 注册成功6 不断重试注册 Slot7 直到注册成功Slot 38 提供 Slot 额度9 分发 JobGraph1.Pod 启动慢2.Slot 注册慢定制化 Flink 镜像按需裁剪用户依赖与 Flink 镜像分离梳理