当前位置:首页 > 报告详情

数据湖分析之Upsert详解.pdf

上传人: li 编号:29759 2021-02-07 22页 1.41MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了腾讯大数据技术系列沙龙第三期内容,重点探讨了新一代数据湖技术中的Upsert功能。传统数仓数据入库存在痛点,如数据延迟大、全量扫描源库造成资源浪费等。新一代数据湖技术通过CDC(Change Data Capture)实现数据的实时入湖,具有ACID和Snapshot特性,支持读写分离,历史信息可追溯,以及row-level update等优势。Upsert操作可以实现数据插入、删除和更新。案例包括GDPR数据删除和CDC数据写入。Upsert的实现方式有Copy On Write和Merge On Read两种,Delta Lake和Apache Hudi等新技术提供了更灵活的文件组织方式。未来,随着数据湖技术的应用,传统数仓将进行全面改变,实现批流一体、准实时的数据处理。
"新一代数据湖技术如何解决传统数仓入库痛点?" "Upsert技术在实际应用中的优势和案例分析" "腾讯大数据TDW入库方案的具体实现和优化策略"
客服
商务合作
小程序
服务号
折叠