1、基于ApacheHudi构建数据湖上低延迟CDC的实践杨华、刘金辉年终大会2020DATAFUNTALK#page#分享大纲T3出行数据湖简介为什么基于ApacheHudi构建数据入湖管道基于ApacheHudi构建数据湖上低延迟CDC管道的实践年终大会2020DATAFUNTALK#page#T3出行数据湖简介年终大会2020DATAFUNTALK#page#T3出行:全国首家基于车联网的出行平台车联网架构平台自主能力统一平台、统一标准、统一接入第三方合作第三方服务智能网联汽车自动验,视转交活车载智能硬件车企国家南向出行服务的总精定、医像识、行为识等能信息信息平台系统移动出行平台安全运营及管
2、理大数据分析及共享务运营及管理,古方级车辆过推筑力各类出行产品,实时获取司机有与大教据、车景等数据,保障联网等内部系统其密连技远营安全性能力中心百万级车辆的应基础设施云平台年终大会2020YDATAFUNTALK#page#数据湖支撑T3智慧出行车路云人RoadCloudVehicleDriver车况数据风控数据背调数据路况数据数人脸数据行驶数据环境数据运力数据欢据采交易数据能耗数据轨迹数据交易数据POI数据城市数据行为数据事故数据集驾驶数据故障数据异常数据用户数据地图绘制安全管理运力调度智能调度应用场景司机管理主动维修实时路况智能决策产品改进安全管理智能营销UBI保险驾驶模式研究市政管理客户
3、体验运营定制车设计年终大会2020DATAFUNTALK#page#什么是数据湖?AWS的定义:A data lake is a centralized repository that allows you to store all your structured and unstructured data atany scale. You can store your data as-is, without having to first structure the data,and run different types ofanalytics-from dashboards and vi
4、sualizations to big data processing,real-time analytics,and machinelearning to guide better decisions数据湖是一个集中式的存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策年终大会2020DATAFUNTALK#page#T3数据湖借鉴了Snowflake的设计思想The Snowflake Elastic Data WarehouseShared-
5、Nothing架构-Shared-Data架构存储计算分离:统一存储、弹性计算数仓即服务:SaaS化体验,共享存储基础设施,计算多租户持续高可用:在线升级,失败容错结构化延伸到半结构化数据的处理支持年终大会2020DATAFUNTALK#page#Multi-ClusterSharedData的架构数据仓库集计算群没有数据孤岛存储从计算解耦任意的数据原生的结构化&半结构化Ad-Hoc计算集群机器学习计算集群无限扩容数据湖存储多种尺寸低成本按需计算OLAP计算集群即刻克隆数据加工计算集群DEV&QA跟生产隔离BI计算集群年终大会2020DATAFUNTALK#page#T3出行数据湖Multi-
6、cluster,Shared-Data的分层架构Authentication & access controlInfrastructureAPIQuerySecurityData Lake ManagerManagerServiceManagerMetadata所有的数据存于一处Ad-HocOLAPMLWarehouse互补依赖独立扩展的存储与计算即开即用,随时关闭的“计算CacheCacheCacheCache每个集群(理论上)可以访问全部数据S点意食会Data Lake Storage年终大会2020DATAFUNTALK#page#为什么基于ApacheHudi构建数据入湖管道年终大会2