当前位置:首页 > 报告详情

通过 CDC、Apache Spark™ 流和 Delta Lake 解锁近实时数据复制.pdf

上传人: 2*** 编号:139075 2023-06-04 26页 1.50MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
DoorDash通过使用CDC、Apache Spark Streaming和Delta Lake,实现了近实时数据复制。主要内容包括:从数据库中快速获取数据,并在数据结构变化时进行合并;在Redshift到Snowflake的数据迁移过程中,建立了一个数据处理流程;DoorDash在2020年的数据处理状态,包括90%的数据表已通过简单转储方式导入Snowflake,要求增量表具有`updated_at`字段,并对该字段进行索引,应用程序在每次写操作时更新该字段;项目Pepto旨在提高数据新鲜度,拥有自己的数据在现代数据湖平台上的所有权,处理数据模式演变和后填充,并允许原本在生产数据库上运行的分析工作负载。设计原则包括:在所有数据库类型中使用CDC/Kafka,构建一个自助服务平台以民主化表的上线,实现一次写入、多次读取,利用流式检查点绕过迟到的数据,以及操作简单性。项目Pepto不是与数据库紧密耦合的服务,也不是实时系统。设计决策包括:非Kappa架构,使用“模式注册表”固定模式,选择Delta Lake作为其他表格式的替代品。在稳态模式、重建模式和批量合并模式下运行。项目Pepto的成果包括:表上线时间缩短至小于1小时,自助服务;运行在1000个EC2节点上的450个流,每天输入约800GB数据,重写约80TB数据,数据新鲜度约为7-30分钟。挑战和学习包括:检查点解决了许多问题,类型转换很困难,每个适配器都有两个序列化器,大型表在操作上具有挑战性,状态管理困难,Databricks API的幂等性保证简化了很多问题。未来的工作包括:将在线数据库的Ad Hoc查询迁移到Delta Lake工作负载,在Medallion架构中进行流式PII模糊处理,以及处理源数据的模式变更。
"DoorDash如何实现数据实时复制?" "如何在Delta Lake上处理数据库表的schema演变?" "DoorDash如何通过Project Pepto提高数据处理效率?"
客服
商务合作
小程序
服务号
折叠