《实时大数据平台技术架构演进及实践-韩飞.pdf》由会员分享,可在线阅读,更多相关《实时大数据平台技术架构演进及实践-韩飞.pdf(25页珍藏版)》请在三个皮匠报告上搜索。
1、实时数据平台技术架构 演进及实践京东零售 集团数据计算平台部/韩 录01 平台定位及规模 02 架构演进及实践 03 未来规划 01 平台定位及规模业务及定位集团统的实时数据平台 覆盖采集、存储、计算 服务订单交易、商智眼、实时控、京东条、实时屏等核业务 平台规模现状处理消息条数峰值采集、分发作业数Topic数Flink作业数吞吐量峰值12万亿+27PB+2.1万+2.2万+1万+平台规模现状CPU核数机房数量物理机总数115万核+1.3万台+502 架构演进及实践云原、智能化FregataJEDRDSCDSApp LogsFlinkCDCJDQFregataHiveDorisClickHou
2、seIcebergHudiJDQIcebergHudiJDQData SourcesSDKqueryFlinkFlink实时链路 采集:Fregata(采集&分发)、FlinkCDC 存储:JDQ、Pulsar、Hudi、Paimon 计算:JRC Flink实时平台架构及容器化现状基于JDOS(京东Kubernetes平台)底座 实现全链路容器化 Fregata 100%JDQ 15%JRC 100%跨机房能 弹性能:分发、计算JDOSIncremental ETLJDQ on JDOSStatefulSetBrokerPod BrokerPod BrokerPod PVCServiceJD
3、OS DNSNodePortLoadBalancerHeadlessLocalPVChubaoFS云海nodeAffinitypodAntiAffinity服务状态保持致 CFS:路径映射 数据持久化、性能 IO、主从同步 Linux内核对FUSE WriteBack Cache持不完善导致限速 兼容物理机集群部署,感知迁移 物理机独占Par200Rep2Ack1 Nocallback Par200Rep2Ack2 Callback 物理机集群 32C/192G3375w2262wCFS集群 32C/64G3227w2447w云海集群 32C/64G3376w2946w存算分离性能接近物理机集
4、群服务器成本节省25.3%实时计算弹性traffic-basedtime-basedFlink ClusterContainerContainerTMProcessJMProcessMetricsTopicMDCTopicElastic ConfigTopicMDC ConsumerMetrics ConsumerElastic Config ConsumerElastic Scaling KernelAlgorithm ModelPlannerJRC WebPrometheus ProxyElastic ScalingResult TopicFlink MetricsReporterCont
5、ainerMonitoringElastic Scaling ServicepullpullpullElastic ConfigpullresultFlink Metrics Reporter:主动上报 宿主机部署MDC agent:Pod CPU、MEM、Disk Planner:算法可插拔 Kernel根据JOB ID过滤Metrics Algorithm Model2实时计算弹性推实践 L3作业:1276 资源降低:323,4988核,节省例51.5%资源增加:51,302核,增加例22.5%跨机房能实时平台MTTR敏感 端到端数据双流(活)能 MTTR-0 资源成本 L0双流覆盖率-1
6、00%键动化切换 状态本身跨机房 计算键切换(Mean Time to Repair,平均恢复时间)MTTRJRC Flink跨机房States默认写同机房公共HDFS集群 Flink Job 键切换 Flink Job持多HDFS配置 跨机房SP、CP恢复(优先写同机房)Flink JobHDFSFlink JobHDFSLF机房HT机房statesstatesJRC Flink跨机房States持写CFS Hadoop-Plugin CFS跨机房三副本 Flink Job 键切换,CFS分路由切换 Flink