当前位置:首页 > 报告详情

1、李廷加-在字节跳动建立实时数据湖.pdf

上传人: 云闲 编号:101894 2021-01-01 41页 4.30MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了字节跳动在数据集成和实时数据湖构建方面的实践和探索。字节跳动的数据集成系统从2018年的异构数据源批处理,发展到2020年的MQ-Hive统一批处理和流处理,再到2021年的MQ-Datalake统一数据仓库和数据湖。他们使用Apache Flink作为数据集成系统,支持50多个渠道,包括数据库、消息队列和大数据生态系统。 文章指出,Hudi框架在构建实时数据湖方面具有核心抽象、高级查询规划、灵活的schema演化、高效的更新插入、读取合并和增量处理等优势。字节跳动选择Hudi作为数据湖框架,因为它在状态索引、布隆索引、全局布隆索引、HBase索引、哈希索引等方面提供了多种索引类型,可以针对不同场景选择合适的索引。 在数据湖集成解决方案方面,字节跳动希望实现5-10分钟级别的数据可见性,支持100+TB的维度表和100+百万的RPS事件日志。他们采用了Hudi和Flink的结合,实现了低成本的更新插入、高吞吐量、低延迟的数据处理。 文章还详细介绍了字节跳动在实时数据湖构建中的具体应用场景和优化实践,包括MySQL用于OLAP、存储实时数据仓库、全局join操作等。他们通过优化数据集成流程,将计算资源节省了70%,并将端到端延迟降低到5-10分钟。 最后,文章提到了未来的工作方向,包括统一存储CDC、统一批处理和流处理、时间旅行查询等。字节跳动致力于构建一站式数据湖平台,提供一键式导入、自管理自动优化器、基于场景的优化器等功能,以实现更高效、更灵活的数据处理和分析。
"Hudi在字节跳动的实时数据湖构建中扮演什么角色?" "如何通过Hudi和Flink实现高效的数据湖集成?" "字节跳动在数据集成领域有哪些创新和优化?"
客服
商务合作
小程序
服务号
折叠