《Hudi 数据湖在顺丰的应用实践.pdf》由会员分享,可在线阅读,更多相关《Hudi 数据湖在顺丰的应用实践.pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、Hudi 数据湖在顺丰的应用实践演讲人:唐尚文-顺丰科技-数据湖技术负责人应用场景010203未来展望目录实践与优化数据湖在顺丰的应用Part 01顺丰集团业务概览快递物流快递快运同城即时配送国际冷链医药仓配一体增值服务供应链综合物流其他业务丰巢顺丰房托丰泰产业园顺丰数科更多.顺丰科技业务全景数据中台AI中台大数据平台顺丰云平台DevOps一站式研发平台智能运维平台信息安全运营平台数字化全流程管理数字化企业经营智能化升级,助力管理效率提升大网数字化贯穿收转运派全生命周期的数字化科技能力供应链数字化自研一体化的供应链系统及平台,实现多元供应链生态科技服务标准科技产品基于科技能力的标准化标杆对外应
2、用产品行业解决方案提供端到端基于泛物流场景的多行业一体化解决方案数字化物流开放平台基于Lass 对外提供数字化物流服务能力运筹大数据区块链人工智能无人XGIS隐私计算数据湖 Hudi 具备怎样的能力?离线批计算实时流计算优势:技术成熟稳定、可应对复杂逻辑缺点:时效性低(天级/小时级)优势:时效性高(秒级)缺点:开发成本、稳定性低,复杂度有限近实时计算Hudi优势时效性高(分钟级)支持流批写入,增量查询等能力优秀的局部更新能力支持 ACID支持多版本.在某些场景下,兼顾时效性和数据复杂度,对原有数仓架构进行能力补充数据湖在顺丰的应用可视化监控与分析经营热力图件量、客户、产品、收派比可视化分析中转
3、/流向预测件量预测参考对件量进行预测将结果给到场地进行参考,对人力和资源进行安排运单/运力异常监控对运力进行实时/准实时监控,快速识别运力异常,干预并降低损失异常风险识别航空资源动态调整资源缺口识别近实时识别航空资源的动态缺口,调整资源分配数据湖在顺丰的实践和优化Part 02数据湖在顺丰的实践和优化01实时数据入湖实践02离线数据开发实践顺丰实时数据接入发展历程201720192021JStorm+CanalFlink+CanalFlink+CDCFlink+Canal 实现数据入湖存在的问题Binlog采用不锁表的方式进行数据采集,容易导致数据状态的变化时序无法和数据库保持一致数据一致性难
4、保障数据需要经过多个组件才能实现数据入湖、维护起来复杂、稳定性难保障架构复杂、加工链路长全量canal.Flink写入 binlog读取 binlog全量查询实时数据入湖的需求和技术选型增量同步Flink CDC断点续传无锁读取全量+增量分布式数据转换能力强能够保障数据一致全量增量数据同步自动切换,并能够保障数据的一致对源数据库影响最低尽量不使用锁,同时避免一个表一个同步任务,尽量降低对源数据库造成影响具有较好的同步性能能够支持分布式采集,具有很好的稳定性去保障数据的同步效率核心需求技术选型基于开源的 Flink CDC 实现数据入湖步骤实时计算平台1.SQL/JAR大数据集群2.提交作业用户
5、数据管理员1.数据源申请数据库2.权限维护数据地图1.数据资产注册2.数据查找能够满足基本需求但也存在一些问题!步骤1:申请数据源权限用户用户用户步骤2:实时数据入湖任务开发/调试步骤3:数据资产注册和维护易用性问题稳定性问题易用性问题:开源方式接入门槛高、难度大接入用户需要了解较多的 Flink、Hudi等 使用方法、数据库等配置信息,对于小白用户或者数据接入放来说,使用门槛较高接入门槛高数据库连接信息维护难、没有统一的数据源管理、权限控制等,数据源管理员工作量大,并且这种管理方式也存在一定的安全问题维护难度大解决方案:通过产品化降低数据入湖门槛顺丰实时数据直通车通过数据源管理授权用户访问、
6、避免密码泄漏,方便用户进行数据管理和数据共享安全可控、易维护用户只需勾选待同步的表及相关信息,就能自动生成对应的数据同步任务,完成敏感字段数据自动加密等工作,无需了解 Flink、Hudi 相关配置就能够实现数据快速数据入湖高效接入、零门槛数据安全加密数据源管理无需保留敏感信息根据用户量级匹配自动生成对应的接入参数,提高接入的效率实时接入产品应用架构数据源管理数据应用2.数据源授权1.申请数据源实时数据直通车MySQL4.同步 Schema 等信息3.创建作业实时计算平台数据地图5.提交数据同步作业6.新建资产用户数据开发平台数据接入数据使用大数据集群元数据获取7.提交作业提交作业简要步骤数据