1、京东云原跨域数据平台落地实践京东零售-集团数据计算平台部/吴维伟录.京东数据平台概况.京东云原数据平台建设背景和挑战三.京东云原数据平台落地实践四.落地收益五.未来规划离在线混部跨域存储 京东数据平台是京东数据业务的基础服务平台,为京东数据业务的实现提供站式、助式的数据处理全流程解决案。涵盖数据采集、存储、加、分析、可视化、机器学习等专业化产品和服务,通过数据集中从形成效的数据开放,在保障数据安全的前提下,提供助式的服务平台,幅降低数据消费槛,帮助京东数据业务快速落地,助京东实践以数据为驱动的业务变与发展。云原存算分离Hadoop提供站式、助式的数据处理全流程解决案跨域数据架构.云原数据平台概
2、况集群规模数百万核存储能数 EB计算能运job数百万.云原数据平台概况-平台架构标 促期间在线业务 0 采购扩容 常在线资源共享给离线使=云原弹性伸缩架构升级资源弹性伸缩的最价值是通过资源共享式充分复资源,在资源使上的错峰填,以达到提升集群资源利率的效果,实现资源价值最化。架构升级 K8S在线服务YARN离线调度离线计算混部资源调度(JMR)(控制混部离在线资源例、弹性伸缩)K8S在线服务离线计算YARN实时计算实时计算痛点 促期间在线业务采购机器应对业务峰 常在线资源利率低.云原数据平台-建设背景 如何统离线和在线的资源调度?离线在线混合部署时,如何保证在线业务不受影响,离线业务基本稳定?.
3、云原数据平台-建设挑战 跨机房资源共享后,跨机房数据访问如何避免影响在线任务(络隔离与流控).云原数据平台-建设挑战三.落地实践-(1)计算混部资源池化资源统封装,屏蔽底层IaaS特性统资源调度,上层应系统感使按需调度,促节点,离线仅需借出数时资源效利在线应和离线计算具有资源互补的特点,可通过统资源调度提升资源复率统资源协同离线计算在线计算共享资源池在线资源离线资源混部资源 K8S 统资源管控 JMR(混部资源管理)协调混部资源调度,结合单机弹性实现资源动态伸缩。强资源隔离保障在线业务 TP99三.落地实践-(1)混部架构统资源管理 K8S 统管理资源 计算服务容器化改造 混部调度器(JMR)
4、协调 K8S 资源分配和 NM 弹性伸缩单机弹性 安全位 离线最最配额(min,max),动态调整 定制化驱逐策略:容器类型、优先级、启动时间、资源容量运维优化 YARN Operator 管理 NM pod 命周期 基于 Token 案实现 NM 节点注册验证资源隔离 联合 K8S 团队实现 CPU 隔离、络 QoS,保障在线业务 TP99 改造 HADOOP 底层,持基于任务等级、流量类型等多种式设置络优先级离线配额安全位三.落地实践-(1)混部关键技术资源占分布00:0000:1000:2000:3000:4000:5001:0001:1001:2001:3001:4001:5002:0
5、002:1002:2002:3002:4002:5003:0003:1003:2503:4003:5004:0504:1504:2504:3504:4504:5505:0505:1505:2505:3505:4505:5506:0506:1506:2506:3506:4506:5507:0507:1507:2507:3507:4507:5508:0508:1508:2508:3508:4508:55资源位线资源使量收益技术内核智能编排引擎利云原架构实现峰值资源按需购买,购买资源每占时不超过 4 时资源位线以上计算资源可以分批腾退,降低数据平台机器成本时序预测数据缘任务诊断动态规划问题:资源占分
6、布不均衡,部分离线资源时间闲置标:利弹性伸缩能,峰值资源按需向云平台购买,减少离线计算常驻资源量挑战:规模、复杂作业链路,超百万任务,资源预测困难运时间任务优先级志解析链路图谱任务解析时序预测资源预测时预测时序编排任务托管资源监测读写监测资源调度基于作业分级,结合资源预测、数据缘、作业性能诊断等能,智能动态向云平台按需购买资源,降低离线机房常驻资源需求总体资源量云平台资源借三.落地实践-(1)混部资源动态规划机房A只读 standbyDN块异步传输3 机房 6 副本跨域流控BLKDNBLK只读 standbyDNB