《3分钟构建一条StreamingDataPipeline.pdf》由会员分享,可在线阅读,更多相关《3分钟构建一条StreamingDataPipeline.pdf(11页珍藏版)》请在三个皮匠报告上搜索。
1、 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。3 3分钟构建一条StreamingStreaming DataData pipelinepipeline张盼富K S 2 7K S 2 7解决方案架构师亚马逊云科技数据分析师的无奈(场景虚构)Boss小张数据分析师小张,我们公司的报表只能看到前1 1 天的数据,太慢了。听开发小王说,现在我们的数据已经实时写入Kafka Kafka 了,为什么后续的数据处理还这么慢?BOSS,你了解我的我更擅长写 SQL,做数据分析。我不太会基于 Kafka 做数据的流式处理。要不你让我学个3 3-5 5 个月3-5 个月
2、?我刚参加完亚马逊云科技的中国峰会亚马逊云科技的架构师说,3 3 分钟,写写SQLSQL,就可以搞定!3 分钟?还只需要写 SQL?BOSS,我那赶紧去学习一下!传统的流式处理Amazon RedshiftAmazon KinesisData StreamsAmazon MSKKinesis or Kafka producerAmazon KinesisData StreamsAmazon QuickSightAmazon EMR亚马逊云科技的数据服务,我还是了解一点的,我现在就在使用 Redshift 做数据处理如果要实现流式数据消费到 Redshift,要么使用 EMR 的Flink/Sp
3、ark要么使用 Firehose小张数据分析师Amazon Kinesis Data Firehose注:Kinesis Data Stream:一种无服务器流数据服务,可简化数据流的捕获、处理和存储MSK:云平台托管的 Kafka 服务,兼容开源的KafkaRedshift Redshift 的流式摄入Amazon RedshiftAmazon KinesisData StreamsAmazon MSKKinesis or Kafka producerAmazon KinesisData StreamsAmazon QuickSight哦,我知道了。亚马逊云科技2022 年发布了Redshi
4、ft 的流式摄入功能!但我一直没有使用过,担心用起来很复杂!如果真像Boss 说的,写写SQL 就能搞定,那就太好了小张数据分析师流式摄入(Streaming Ingestion)消除中间环节实现 Zero-ETL流式摄入SQL SQL 示例注:在列数较多时,更建议将 JSON 字符串转换为 Redshift Super 类型后,再做解析Really?这么简单?小张数据分析师任务调度还有一个问题,从物化视图写入表,如何自动执行呢?小张数据分析师Amazon Aurora PostgreSQLAmazon RedshiftAmazon DynamoDBAmazon Aurora MySQLAma
5、zon RDS for MySQL全面 Zero-ETL最后一个问题,如果我们的源数据在 关系型数据库,也有办法简单、非常简单的、且实时的将数据注入 Redshift 中么?小张数据分析师 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。Thank you!Thank you!声明/Disclaimer:1.前述材料中的特定亚马逊云科技生成式人工智能相关的服务(如Amazon Bedrock,Amazon Q)仅在亚马逊云科技海外区域可用,详情请以官网最新信息为准。亚马逊云科技中国仅为帮助您发展海外业务和了解行业前沿技术选择推介该服务。2.前述材料中第三方
6、生成式人工智能内容并非由亚马逊云科技提供,您应当依法使用服务并遵循相应的合规要求。张盼富解决方案架构师亚马逊云科技 2024,Amazon Web Services,Inc.或其附属公司。保留所有权利。Thank you!Thank you!声明/Disclaimer:1.前述材料中的特定亚马逊云科技生成式人工智能相关的服务(如Amazon Bedrock,Amazon Q)仅在亚马逊云科技海外区域可用,详情请以官网最新信息为准。亚马逊云科技中国仅为帮助您发展海外业务和了解行