《字节基于HUDI的批流一体存储实践.pdf》由会员分享,可在线阅读,更多相关《字节基于HUDI的批流一体存储实践.pdf(25页珍藏版)》请在三个皮匠报告上搜索。
1、字节跳动批流一体存储实践演讲人:耿筱喻火山引擎技术专家2023 背景与挑战设计方案落地场景未来规划背景与挑战传统数仓架构批流一体架构 批流一体 SQL 一套 SQL 同时流式执行用于实时构建及批式执行用于离线回溯 一套 SQL 同时支持数据构建与数据分析 批流一体存储 一份存储同时支持流式的增量读写以及批量读写 支持高效的 OLAP 查询 支持高效的维表 Join!#$%!#$%!#$%LAS(Lakehouse Analysis Service)湖仓分析引擎湖仓开发工具SparkPrestoFlink批流一体SQL统一元数据统一目录权限管控元数据发现湖仓存储内置存储其他数据源TOSRDSEM
2、RMQ分布式文件存储批流一体存储引擎弹性资源VKE/VCI湖仓存储湖仓分析引擎队列管理数据管理查询分析作业管理权限管理生态连接湖仓分析平台 统一元数据 ACID 支持 企业级权限管控 极致弹性 引擎极致优化经典实时数仓架构 日志计算场景 长周期计算场景 全量计算场景经典实时数仓架构 实时存储不统一 实时离线存储能够统一 冷启动流程复杂且耗时 回溯中间数据不可查批流一体存储批式 分区并发更新 Hive 表读写吞吐流式 低延迟 写入/消费 RPS 一致性语义多引擎支持批流一体存储方案湖仓一体架构Hudi批流一体存储架构批流一体存储架构数据组织形式批流一体存储架构数据读写方式BTS 架构落地场景流式数据计算场景多维分析场景日志场景批流复用场景飞书数仓飞书实时数仓未来规划未来规划 业务场景探索 负载分离/均衡 查询优化 Native Engine 集成感谢您的观看