1、离线实时一体化数仓与湖仓一体 云原生大数据平台的持续演进林伟阿里云智能研究员010203Contents目录湖仓一体离线在线数仓一体化智能数仓确定建立一个开发、协同、繁荣的电子商务生态系统,其中生态系统的核心是数据。1688数据团队AliExpress数据团队淘宝数据团队天猫数据团队平台从分散到统一宁波战略会议各个业务团队垂直式发展数据能力2007年2012年2013年B2B数据服务化登月&电商公共层启动“中台战略”2015.12OralceGreenplumHadoopODPSBIEE集团CEO逍遥子:今天起,我们全面启动阿里巴巴集团2018年中台战略,构建符合DT时代的更创新灵活的“大中台
2、、小前台”组织机制和业务机制。建立OneData雏形建立OneService服务统一大数据平台全面推广OneData统一集团建设标准建立服务商家数据产品-生意参谋建立实时数据技术能力及双11媒体大屏建立服务小二的“阿里数据平台”2017开启“云上数据中台”集团全域数据深化数据资产的整合与建设-建立OneID体系。全面深入业务,构建数据赋能业务的产品及组织能力。从内而外建立了:Dataphin+Quick系列的产品矩阵目前已经服务1000+企业数据从资源到资产组织从成本到价值2021阿里巴巴从数据湖到数仓历程对比维度数据湖数据仓库方法论事后建模Schema-on-read事前建模Schema-o
3、n-Write存储类型结构化/半结构化/非结构化结构化/半结构化计算引擎向所有引擎开放各引擎有限优化向特定引擎开放易获得高度优化成本易启动难运维管理难启动易运维管理(甚至免运维管理)数据治理质量低难管理使用质量高易管理使用企业级能力灵活性数据仓库和数据湖业务规模总体拥有成本(TCO)特定规模前,数据湖灵活性占优,之后数仓成长性占优客户如何才能同时享受数据湖的灵活性和云数据仓库的成长性?数据湖云数据仓库数据仓库和数据湖系统的增长曲线登月Cloud Data Warehouse-MaxCompute存储计算分离计算计算.数据云存储存储计算一体HiveSpark.开放存储(HDFS)SaaS云数仓M
4、axCompute+On-perm Data lake开源自建数据湖Cloud Data lake开源云数据湖=湖仓一体新架构隔离&分享隔离&分享隔离&分享.开发平台/数据管理/介入访问(Web-UI/SDK/JDBC)认证&访问控制管理安全开发元数据任务型计算引擎(MaxCompute/PAI/Flink/Spark)交互式服务型引擎(Hologres)数据仓库实例(Multi-Projects)数据仓库1(ETL项目)数据仓库2(BI项目)数据仓库3(自助分析)数据仓库4(机器学习)自适应弹性资源池Inside HadoopInside OSSMaxCompute优化内置存储.HDFS存储
5、云存储(OSS)NoSQL存储(TableStore)数据仓库(MaxCompute内置存储)一体化的元数据一体化的湖仓存储访问层湖仓一体(如何避免登月)大数据计算规模化+实时化春晚直播实时大屏双 11 GMV 实时大屏城市大脑实时交通监测银行实时风控监测淘宝实时个性化推荐发展的相似性HadoopHiveMaxComputeFlink+离线数仓(MC)FlinkFlinkMC+Holo离线在线数仓一体化KafkaFlinkSubscriptionArchivingDim Table JoinHiveClickHouseDruidHBaseCassandraDrillPrestoRedisMys
6、qlAPIApplicationsReportsDashboardsResultCachingBatch Processing批处理Batch Acceleration 离线加速Federated Analytics 联邦计算Point Lookups 点查询Realtime Analytics实时计算结果缓存DataHub在线应用运营看版数据大屏MaxCompute服务分析Hologres实时数仓离线数仓实时计算Flink版数据总线从N到1,Hologres简化大数据架构企业数仓实践的“纷繁芜杂”数据湖实时离线数