报告预览

韩旭-流数据直接入湖.pdf

编号：624575

PDF 17页 2.86MB 下载积分：VIP专享

下载报告请您先登录！

韩旭-流数据直接入湖.pdf

1、流数据直接入湖演讲人：韩旭 AutoMQ 内核负责人AutoMQ Table TopicAutoMQ Table Topic流与数据湖Streaming and LakeHouse01Table Topic 架构介绍Introduction of Table Topic02Table Topic 架构优势Differences of Table Topic03产品演示Demo04目录CONTENTS流与数据湖Streaming and LakeHouse流与数据湖流与数据湖开发成本ETL 任务编写Schema 演进管理运维成本Spark/Flink ETL 集群维护 Worker CPU/内

2、存/数量/监控资源成本消费 Kafka 的带宽消耗攒批写 Parquet 的内存消耗Stream Storage 和 Table Storage 的存储消耗Table Topic 架构介绍Introduction of Table TopicTable Topic 架构介绍Shared Storage to Shared DataTable Topic 架构介绍Schema 管理Built-in Schema Registry自动 Schema 演进支持 AWS Glue、S3 Table 和 HiveTable Coordinator每个 Table Topic 一个独立的 Coordina

3、tor定期协调触发 Worker 的数据上传中心化提交 Iceberg SnapshotTable Worker每个一个 Worker负责将 Record 转换成 Parquet 并上传 S3根据 Record Schema 自动创建和演进 TableTable Topic 架构介绍攒批实时同步触发：未同步的数据超过 32MB同步：批量从 LogCache 读取数据转换成 Parquet 上传分时复用：256MB 内存分时给 N 个 Worker 复用Coordinator Commit 同步触发：Coordinator 定期 1min15min 触发同步：仅需同步末尾的一小部分Coordi

4、nator 5s 内即可完成 Commit8C16G 支撑 80MiB/s Table Topic 写入（512 bytes 消息大小、每条消息 16 个字段 =260w field/s）Table Topic 架构优势Differences of Table TopicTable Topic 架构优势Zero ETL无需搭建和维护额外的 Spark/Flink ETL 集群仅需创建 Topic 时开启 Table Topic 即可完成流数据入湖Auto Scaling&Auto Balancing线性吞吐：Table Topic 同步吞吐随着集群规模线性伸缩负载均衡：Table Topic

5、Worker 与分区绑定，随着分区自动负载均衡而均衡Schema数据质量：通过 Kakfa Schema 来进行数据质量保障自动演进：根据 Record 的 Schema 自动对 Iceberg Table 进行 DDL低成本无 ETL 消费 Kafka 的网络开销无 ETL 集群节点开销内存分时复用，占用空间固定，不随 Table Topic 数量线性增长产品演示Demo产品演示从 AWS 应用市场安装 AutoMQ BYOC产品演示发送 avro 消息产品演示发送 avro 消息产品演示Athena select*FROM s3tablescatalog/automq-s3table.default.clickstream;感谢大家用心观看演讲人：韩旭 AutoMQ 内核负责人https:/

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（韩旭-流数据直接入湖.pdf）为本站（Flechazo）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。