2020年终大会-大数据应用：9-2.pdf

上传人： li

编号：29875

2020-12-01

PDF 35页 1.37MB

《2020年终大会-大数据应用：9-2.pdf》由会员分享，可在线阅读，更多相关《2020年终大会-大数据应用：9-2.pdf（35页珍藏版）》请在三个皮匠报告上搜索。

1、数据湖的初步探索与实践落地郑志升数据湖初探 ODS - 数据增量仓 DWD - Append/Upsert增量未来展望分享纲数据湖初探早期数据架构 Bilibili 存在痛点 - 时效性传输管道缺乏计算能数据法前置清洗，落地后加重ODS到DW负担 Mysql法实时更新，效查询 Mysql的数据，采Datax按天同步，时效性不离线和实时的gap难满部分数据，对于纯实时则成本过，纯离线则时效太差 Mysql数据的仓时效不够，超规模的业务表同步时间过且不稳定存在痛点 - 稳定性资源编排压量离线作业资源集中爆发在凌晨后，难打散，SLA低 DW和ADS层的优化难离线按天计算任

2、务，SQL经常会出现数据倾斜，资源OOM等作业启动时间晚，报表产出慢 DW层严重依赖ODS层数据的产出归档旦DW层计算产出慢（故障），整体最终ADS的报表产出就会SLA不达标初窥Snowflake Paper Bilibili 存储计算分离从Share-Nothing到Share-Data Data Storage MVCC、LSM、time-travel VM层 SSD、Cache，状态file stealing Cloud Services 查询优化器、元数据存储、鉴权资源管理和事务管理等。解读Data Storage Append/Upsert S3和HDFS本身只能appe

3、nd，将table分成lager immutable files 基于Meta实现件级复写的更新，常模式有Copy on Write，Merge On Read Meta 采k-v store，类似Hbase，存储些件的statistics、locks、logs 件级索引，有利于计算剪枝，常映射为recordkey-file-bucket-table MVCC 采Snapshot IsoIation实现事务机制，Snapshot持Time-travel 类undo log，记录Insert、Update、Delete、Merge的Ops 结合Snowflake Data Storage理念，提升数据价值（时效性）？核诉求：持 Append、Upsert增量写架构升级 - 增量湖更的时效性持数据Append+Upsert 底层依赖Flink、HUDI Lancer - 数据传输架构

2020年终大会-大数据应用：9-2.pdf

相关报告