韩旭-流数据直接入湖.pdf

编号:624575 PDF 17页 2.86MB 下载积分:VIP专享
下载报告请您先登录!

韩旭-流数据直接入湖.pdf

1、流数据直接入湖演讲人:韩旭 AutoMQ 内核负责人AutoMQ Table TopicAutoMQ Table Topic流与数据湖Streaming and LakeHouse01Table Topic 架构介绍Introduction of Table Topic02Table Topic 架构优势Differences of Table Topic03产品演示Demo04目 录CONTENTS流与数据湖Streaming and LakeHouse流与数据湖流与数据湖开发成本ETL 任务编写Schema 演进管理运维成本Spark/Flink ETL 集群维护 Worker CPU/内

2、存/数量/监控资源成本消费 Kafka 的带宽消耗攒批写 Parquet 的内存消耗Stream Storage 和 Table Storage 的存储消耗Table Topic 架构介绍Introduction of Table TopicTable Topic 架构介绍Shared Storage to Shared DataTable Topic 架构介绍Schema 管理Built-in Schema Registry自动 Schema 演进支持 AWS Glue、S3 Table 和 HiveTable Coordinator每个 Table Topic 一个独立的 Coordina

3、tor定期协调触发 Worker 的数据上传中心化提交 Iceberg SnapshotTable Worker每个 一个 Worker负责将 Record 转换成 Parquet 并上传 S3根据 Record Schema 自动创建和演进 TableTable Topic 架构介绍攒批实时同步触发:未同步的数据超过 32MB同步:批量从 LogCache 读取数据转换成 Parquet 上传分时复用:256MB 内存分时给 N 个 Worker 复用Coordinator Commit 同步触发:Coordinator 定期 1min15min 触发同步:仅需同步末尾的一小部分Coordi

4、nator 5s 内即可完成 Commit8C16G 支撑 80MiB/s Table Topic 写入(512 bytes 消息大小、每条消息 16 个字段 =260w field/s)Table Topic 架构优势Differences of Table TopicTable Topic 架构优势Zero ETL无需搭建和维护额外的 Spark/Flink ETL 集群仅需创建 Topic 时开启 Table Topic 即可完成流数据入湖Auto Scaling&Auto Balancing线性吞吐:Table Topic 同步吞吐随着集群规模线性伸缩负载均衡:Table Topic

5、Worker 与分区绑定,随着分区自动负载均衡而均衡Schema数据质量:通过 Kakfa Schema 来进行数据质量保障自动演进:根据 Record 的 Schema 自动对 Iceberg Table 进行 DDL低成本无 ETL 消费 Kafka 的网络开销无 ETL 集群节点开销内存分时复用,占用空间固定,不随 Table Topic 数量线性增长产品演示Demo产品演示从 AWS 应用市场安装 AutoMQ BYOC产品演示发送 avro 消息产品演示发送 avro 消息产品演示Athena select*FROM s3tablescatalog/automq-s3table.default.clickstream;感谢大家用心观看演讲人:韩旭 AutoMQ 内核负责人https:/

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(韩旭-流数据直接入湖.pdf)为本站 (Flechazo) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠