1、云原数据平台架构演进弹性、融合、开放顺丰科技 蔡适择CONTENTS.背景&趋势.顺丰数据平台架构升级三.顺丰数据架构在内外部的应实践四.后续规划1背景&趋势顺丰简介-集团业务概览 快递物流快递快运同城即时配送国际冷链医药仓配体增值服务供应链综合物流其他业务丰巢顺丰房托丰泰产业园顺丰数科更多.数据截时间:2022年1231顺丰是中国第、全球第四快递物流综合服务商,为客户提供国内及国际端到端站式供应链服务。同时,依托领先的科技研发能,致于构建数字化供应链态,成为全球智慧供应链的领导者。335个地级市(含直辖市)国内城市覆盖率99.4%2,813个 县区级城市国内县级覆盖率99.4%98个国家及地
2、区国际快递及供应链业务覆盖208个国家及地区跨境电商包裹业务覆盖2,675亿2022年度年营业收162,823 员数量中国 服务全球顺丰数据平台应简图数据分析AI智能区块链IoT 万物互联智慧供应链智慧物流智能调度智能控数据运营分仓预测智能调拨数据平台数据平台发展趋势数据基础设施湖仓体价值逐渐被认可存算分离、云原成为现代基础设施标准流批体诉求越来越数据平台发展趋势数据管理成熟度曲线2数据平台架构升级原有架构痛点1存算体超融合计算存储分离计算能MPP分析类报表类CPUDisk定义款通机型存储能计算能CPUGPUFPGADisk存储计算25G络列存储压缩存储能计算密集CPUHDD/SSD3D-Op
3、t存储密集数据集群的部署基本都将存储与计算融合在起,导致:1.法进存储或计算的定向伸缩,造成资源浪费2.发机器负载时会带来量的数据复制,影响稳定性数据服务的部署受限于本地IDC的事前规划,对峰往往需要提前预测及备服务器,机器采购、搬迁、上架、环境安装等均需要耗费量的精与时间,资源的弹性伸缩能严重不,造成资源浪费。原有架构痛点2数据孤岛湖仓分离技术组件独多云数据中数据时效性不以天级为主,时级为辅数据致性不湖中的更新不定覆盖到仓半结构化数据持弱半结构化数据难以被分析应到跨源联邦分析难以满数据冗余数据致性不跨云数据融合分析难以满不致的户体验,使成本元数据独,找数难数据跨境安全保障低Clickhous
4、e顺丰可区(顺丰云)新加坡可区(GCP)户数据业务数据业务系统BDP户数据业务数据业务系统BDP原有架构痛点3产容灾分离存储-HDFS存储-HDFS产环境容灾环境DISTCP空闲Slot空闲Slot空闲Slot空闲Slot计算资源池Spark SlotMR SlotFlink SlotPresto Slot计算资源池.容灾双活产、容灾数据实时致,任务法做到感切换资源浪费容灾计算资源闲置浪费数据致性差容灾和产数据法保障实时致,维护成本弹性融合数据平台整体架构 产品整体上分为四部分,包括弹性资源层、融合计算层、数据洞察层和安全中。产品标是为客户提供极致弹性、感、安全、简单易的云上数据服务数据洞察层
5、数据集成数据直通IDE任务调度站式数据场数据建模主动元数据数据质量数据缘数据管理平台数据权限管理数据应平台丰景台数据服务数据户数据市场隐私计算数据安全融合计算层实时数仓CDC深度整合多模索引优化深度定制Hudi表格式&元数据管理统SQL跨源联邦查询计算下推加速深度定制SQL解析器&CodeGen湖仓体统Catalog类型动推断Static&Dynamic Pruning弹性资源层对象存储/HDFS存储/混合存储弹性资源调度(ECS/k8s)业云(融、政务)公有云(AWS、GCP、Azure、阿云、腾讯云、华为云)本地私有云数据中权限认证加解密脱敏印合规审计KMSShared-nothing C
6、acheRemote Shuffle Service资源弹性伸缩策略管理核能1资源弹性伸缩计算统SQL JDBC ServerSQL解析认证鉴权查询优化下推RBOCBO资源管理Session管理引擎管理统元数据服务Catalog适配器HiveSparkFlink统数据语,便利引擎升级K8S-CCEspark-executor-podCache-pod新机房计算资源池spark-driver-podCK8S-CCEspark-executor-podCache-pod机房计算资源池spark-driver-podCK8S-CCEspark-executor-podCache-pod公有云计算资源