天穹OLAP：实时湖仓融合平台架构实践.pdf-三个皮匠报告

1、DataFunSummit2023天穹OLAP:实时湖仓融合架构实践演讲人：程广旭-腾讯-高级工程师为什么需要湖仓融合湖仓融合新架构未来展望及规划DataFunSummit2023为什么需要湖仓融合实时数仓 VS 数据湖对比项对比项实时数仓实时数仓数据湖数据湖架构存算一体/存算分离存算分离计算引擎自带计算引擎，一般为MPP架构依赖第三方计算引擎，如：spark、presto等存储引擎一般集成写入入口及具备完善的数据分片管理机制一般借助Flink等计算引擎写入数据查询性能优较优易用性好，系统自成一体，集成了写入/查询/集群管理等能力需要与其他组件配合使用成本高低性价比更好的查询性能带来了较高的成

2、本查询性能较优且存储成本更低数据湖：一个集中式存储库，允许您以任意规模存储所有结构化和非结构化数据。实时数仓：指能够实时地处理和分析数据，使得数据仓库中的数据是最新的、最准确的，并且可以实时响应用户的查询和分析需求的一种数据仓库系统。湖仓融合的意义为什么要在湖上建仓数仓加速：基于数据湖的远程 IO 成本很高，且缺少一系列数仓加速的手段；早期的数据湖格式多样且不成熟，索引的支持不完善，查询性能有待提升；并且数据湖主要针对吞吐量的优化，关注低成本和高可靠，不适用于高性能的需求；虽然可以通过缓存解决一部分性能问题，但引入缓存也会带来数据一致性、查询性能不稳定等等问题实时分析：对于实时写入的流式数据

3、，传统的数据湖写入的实时性不够，在 Iceberg 或者 Hudi 的支持下可能能解决分钟级别的时效性，但是无法解决秒级时效性的问题高并发查询：对于高并发查询，不管是点查还是聚合类的查询，数仓是更擅长的为什么要湖仓融合降本增效：简化技术架构，提升架构的易用性，并增强架构可靠性，降低运维成本统一数据：统一数据存储和输出，所有数据的口径都是一致的，基于相同的数据计算，保证数据的一致性数据治理：湖仓融合的数据底座统一了主数据和元数据，基于此才有可能做上层统的数据治理传统的实时湖仓一体架构优点：增量读取，实时性好，成本低相较MQ更加稳定性缺点：查询借助外部引擎，查询性能一般业务需要维护多个Flink

4、任务BinlogODSDWDDWSDataFunSummit2023湖仓融合新架构实时湖仓融合平台优点：接入简单，只需创建实时入库任务数据实时性更高，分钟级-秒级查询性能更优，亚秒级缺点：相较于iceberg等湖格式，支持的湖能力欠缺数据可能会存储多份，有一定的冗余注：SuperSQL是腾讯大数据自研的下一代大数据自适应计算平台。湖仓融合总体架构1数据实时写入到仓，并定时降冷到湖1数据实时入湖后，准实时导入到仓2数据实时双写入仓与入湖2冷热数据分区映射实时Table1p_20230303p_20230302p_20230228p_20230301p_20230227Table2p_202303

5、03p_20230302p_20230228p_20230301p_20230227TubePulsarFlink离线HiveicebergHudi数据接入实时数仓HiveIcebergHudi降冷入湖分区映射实时入仓入仓加速数据湖数据湖融合分析融合查询121双写入湖21实时入库 Pulsar数据源Pulsar数据源处理流程用户通过 client 向 FE 提交 pulsar routine load 任务FE 生成 pulsar routine load job，并将 job 拆分成 taskFE 将 task 分配到指定的 BE 上执行BE 将一个 task 视为普通的数据写入任务BE 完

6、成 task 执行后，向 FE 汇报FE 根据结果，继续生成后续新的 task，或者对失败的 task 进行重试FE 不断的产生新 task，从而做到数据不间断的导入背景背景：腾讯内部有大量的团队在使用 Pulsar，但SR只能通过kop插件消费pulsar中的数据，性能较差，亟需原生支持Pulsar数据，提升消费性能。处理流程：实时入库 Pulsar数据源消费性能集群消费峰值:165w/s单 consumer 消费能力:2.5w/s，52MB/s消费能力可通过扩展 partition/consumer 数量水平扩展数据降冷创建降冷任务降冷任务降冷任务：新增降冷任务命令，并配置导出过程中需要

天穹OLAP：实时湖仓融合平台架构实践.pdf

相关报告