当前位置：首页 > 报告详情

1、李廷加-在字节跳动建立实时数据湖.pdf

上传人：云闲编号：101894 2021-01-01 PDF PDF 41页 4.30MB

该报告所属合集： 2021年Flink Forward Asia峰会嘉宾演讲PPT合集

打包下载报告合集

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载报告到电脑，查找使用更方便

VIP专享文档

书签

分享

收藏

已收藏

版权投诉

/41

立即下载

word格式文档无特别注明外均可编辑修改，预览文件经过压缩，下载原文更清晰！

三个皮匠报告文库所有资源均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

《1、李廷加-在字节跳动建立实时数据湖.pdf》由会员分享，可在线阅读，更多相关《1、李廷加-在字节跳动建立实时数据湖.pdf（41页珍藏版）》请在三个皮匠报告上搜索。

1、李延加/Gary LiSoftware Engineer ByteDanceApache Hudi PMC MemberBuildingBuilding TheThe RealReal-timetime DatalakeDatalakeatat ByteDanceByteDanceByteDanceByteDance DataData IntegrationIntegration#1WhyWhy HudiHudi#2DatalakeDatalake IntegrationIntegration SolutionSolution#3UseUse CasesCases#4FutureFuture

2、WorkWork#5#1#1ByteDanceByteDance DataData IntegrationIntegrationEvolutionEvolution ofof DataData IntegrationIntegration SystemSystematat ByteDanceByteDance2018Batch integrationbetweenheterogeneousdata sources2020MQ-HiveUnify streamingand batch2021MQ-DatalakeUnify datawarehouse anddatalakeApache Flin

3、kApache FlinkApache FlinkDataData IntegrationIntegration SystemSystem atat ByteDanceByteDanceSupport 50+channelsincluding DB,MQ,bigdata ecosystemThree mode:Batch Streaming IncrementalSupport all businesslines,such asDouyin,Toutiao,e.t.cBatchBatch ModeModeSupport 20+types ofsource and sink100k+jobs p

4、er dayMySQLData Integration EngineBatch ModeOracleHDFSRedisHiveESMysqlOracleHDFSRedisHiveESStreamingStreaming ModeModeDailyDaily throughput:throughput:MQ-Hive20+PB，10+trillions rowsMQ-HDFS100+PB，50+trillions rowsKafkaData Integration EngineStreaming ModeRocketMQHiveHDFSIncrementalIncremental Mode(CD

5、C)Mode(CDC)MySQLBatch ModeKafka(Binlog)Hive(T-1)HDFSStreamingModeSpark MergerHive(T)Support 5 types of CDCsourceMysql-hive 20k+jobsCore ODS tasksLargest hive table could be100+TB*CDC:Change data captureIncrementalIncremental Mode(CDC)Mode(CDC)MysqlBatch ModeKafka(Binlog)Hive(T-1)HDFSStreamingModeSpa

6、rk MergerHive(T)PainPain points:points:High computing cost,fullshuffle for each run Latency 1 hour,notavailable for real-time OLAP Complex pipeline,highoperation loadIncrementalIncremental Mode:Mode:Batch mode to bootstrap Streaming dump binlog toHDFS Spark merger to producehiveOurOur VisionVisionIn

本文主要介绍了字节跳动在数据集成和实时数据湖构建方面的实践和探索。字节跳动的数据集成系统从2018年的异构数据源批处理，发展到2020年的MQ-Hive统一批处理和流处理，再到2021年的MQ-Datalake统一数据仓库和数据湖。他们使用Apache Flink作为数据集成系统，支持50多个渠道，包括数据库、消息队列和大数据生态系统。文章指出，Hudi框架在构建实时数据湖方面具有核心抽象、高级查询规划、灵活的schema演化、高效的更新插入、读取合并和增量处理等优势。字节跳动选择Hudi作为数据湖框架，因为它在状态索引、布隆索引、全局布隆索引、HBase索引、哈希索引等方面提供了多种索引类型，可以针对不同场景选择合适的索引。在数据湖集成解决方案方面，字节跳动希望实现5-10分钟级别的数据可见性，支持100+TB的维度表和100+百万的RPS事件日志。他们采用了Hudi和Flink的结合，实现了低成本的更新插入、高吞吐量、低延迟的数据处理。文章还详细介绍了字节跳动在实时数据湖构建中的具体应用场景和优化实践，包括MySQL用于OLAP、存储实时数据仓库、全局join操作等。他们通过优化数据集成流程，将计算资源节省了70%，并将端到端延迟降低到5-10分钟。最后，文章提到了未来的工作方向，包括统一存储CDC、统一批处理和流处理、时间旅行查询等。字节跳动致力于构建一站式数据湖平台，提供一键式导入、自管理自动优化器、基于场景的优化器等功能，以实现更高效、更灵活的数据处理和分析。

"Hudi在字节跳动的实时数据湖构建中扮演什么角色？" "如何通过Hudi和Flink实现高效的数据湖集成？" "字节跳动在数据集成领域有哪些创新和优化？"

全行业研究报告分享下载平台

0731-84720580
商务合作：really158d
友链申请 (QQ)：1737380874

关于我们

更多

关于我们

三个皮匠报告微信公众号

三个皮匠报告微信小程序

扫码咨询网站充值下载问题

友情链接：

营销自动化亿欧智库微播易阿里妈妈

copyright@2008-2013 长沙景略智创信息技术有限公司版权所有网站备案/许可证号：湘B2-20190120 | 工信部备案号：湘ICP备17000430号-2 | 公安备案号：湘公网安备43010402001071号

客服

小程序

服务号

折叠