当前位置:首页 > 报告详情

3-1 字节跳动数据湖索引演进.pdf

上传人: 云闲 编号:102296 2021-01-01 30页 2.46MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了字节跳动数据平台大数据工程师耿筱喻关于字节跳动数据湖索引演进的内容。文章首先对比了传统数仓数据更新方式与Hudi索引作用,指出Hudi索引可以快速定位数据,避免不必要的数据读取和更新。然后,文章提出了数据入湖的业务场景和挑战,如实时Upsert、批量BackFill等,并指出Bloom Filter在大量数据场景下性能较差。接下来,文章详细介绍了Bucket Index的原理、写入流程、分区级Bucket以及查询优化方法。最后,文章讨论了Bucket Index的可扩展性问题,并提出了未来规划,包括二级索引、Range Index等,以提升非主键列点查性能和点查/范围查询性能。
"Hudi索引如何提升数据查询效率?" "字节跳动数据湖索引演进有哪些关键步骤?" "如何优化非主键列的点查性能?"
客服
商务合作
小程序
服务号
折叠