《2020年终大会-大数据应用:9-2.pdf》由会员分享,可在线阅读,更多相关《2020年终大会-大数据应用:9-2.pdf(35页珍藏版)》请在三个皮匠报告上搜索。
1、数据湖的初步探索与实践落地 郑志升 数据湖初探 ODS - 数据增量仓 DWD - Append/Upsert增量 未来展望 分享纲 数据湖初探 早期数据架构 Bilibili 存在痛点 - 时效性 传输管道缺乏计算能 数据法前置清洗,落地后加重ODS到DW负担 Mysql法实时更新,效查询 Mysql的数据,采Datax按天同步,时效性不 离线和实时的gap难满 部分数据,对于纯实时则成本过,纯离线则时效太差 Mysql数据的仓时效不够,超规模的业务表同步时间过且不稳定 存在痛点 - 稳定性 资源编排压 量离线作业资源集中爆发在凌晨后,难打散,SLA低 DW和ADS层的优化难 离线按天计算任
2、务,SQL经常会出现数据倾斜,资源OOM等 作业启动时间晚,报表产出慢 DW层严重依赖ODS层数据的产出归档 旦DW层计算产出慢(故障),整体最终ADS的报表产出就会SLA不达标 初窥Snowflake Paper Bilibili 存储计算分离 从Share-Nothing到Share-Data Data Storage MVCC、LSM、time-travel VM层 SSD、Cache,状态file stealing Cloud Services 查询优化器、元数据存储、鉴权 资源管理和事务管理等。 解读Data Storage Append/Upsert S3和HDFS本身只能appe
3、nd,将table分成lager immutable files 基于Meta实现件级复写的更新,常模式有Copy on Write,Merge On Read Meta 采k-v store,类似Hbase,存储些件的statistics、locks、logs 件级索引,有利于计算剪枝,常映射为recordkey-file-bucket-table MVCC 采Snapshot IsoIation实现事务机制,Snapshot持Time-travel 类undo log,记录Insert、Update、Delete、Merge的Ops 结合Snowflake Data Storage理念,提升数据价值(时效性)? 核诉求:持 Append、Upsert增量写 架构升级 - 增量湖 更的时效性 持数据Append+Upsert 底层依赖Flink、HUDI Lancer - 数据传输架构