1、流数据直接入湖演讲人:韩旭 AutoMQ 内核负责人AutoMQ Table TopicAutoMQ Table Topic流与数据湖Streaming and LakeHouse01Table Topic 架构介绍Introduction of Table Topic02Table Topic 架构优势Differences of Table Topic03产品演示Demo04目 录CONTENTS流与数据湖Streaming and LakeHouse流与数据湖流与数据湖开发成本ETL 任务编写Schema 演进管理运维成本Spark/Flink ETL 集群维护 Worker CPU/内
2、存/数量/监控资源成本消费 Kafka 的带宽消耗攒批写 Parquet 的内存消耗Stream Storage 和 Table Storage 的存储消耗Table Topic 架构介绍Introduction of Table TopicTable Topic 架构介绍Shared Storage to Shared DataTable Topic 架构介绍Schema 管理Built-in Schema Registry自动 Schema 演进支持 AWS Glue、S3 Table 和 HiveTable Coordinator每个 Table Topic 一个独立的 Coordina
3、tor定期协调触发 Worker 的数据上传中心化提交 Iceberg SnapshotTable Worker每个 一个 Worker负责将 Record 转换成 Parquet 并上传 S3根据 Record Schema 自动创建和演进 TableTable Topic 架构介绍攒批实时同步触发:未同步的数据超过 32MB同步:批量从 LogCache 读取数据转换成 Parquet 上传分时复用:256MB 内存分时给 N 个 Worker 复用Coordinator Commit 同步触发:Coordinator 定期 1min15min 触发同步:仅需同步末尾的一小部分Coordi
4、nator 5s 内即可完成 Commit8C16G 支撑 80MiB/s Table Topic 写入(512 bytes 消息大小、每条消息 16 个字段 =260w field/s)Table Topic 架构优势Differences of Table TopicTable Topic 架构优势Zero ETL无需搭建和维护额外的 Spark/Flink ETL 集群仅需创建 Topic 时开启 Table Topic 即可完成流数据入湖Auto Scaling&Auto Balancing线性吞吐:Table Topic 同步吞吐随着集群规模线性伸缩负载均衡:Table Topic
5、Worker 与分区绑定,随着分区自动负载均衡而均衡Schema数据质量:通过 Kakfa Schema 来进行数据质量保障自动演进:根据 Record 的 Schema 自动对 Iceberg Table 进行 DDL低成本无 ETL 消费 Kafka 的网络开销无 ETL 集群节点开销内存分时复用,占用空间固定,不随 Table Topic 数量线性增长产品演示Demo产品演示从 AWS 应用市场安装 AutoMQ BYOC产品演示发送 avro 消息产品演示发送 avro 消息产品演示Athena select*FROM s3tablescatalog/automq-s3table.default.clickstream;感谢大家用心观看演讲人:韩旭 AutoMQ 内核负责人https:/