《3-曹富强-Flink 实时计算在微博的应用-V6-TSY-对外.pdf》由会员分享,可在线阅读,更多相关《3-曹富强-Flink 实时计算在微博的应用-V6-TSY-对外.pdf(26页珍藏版)》请在三个皮匠报告上搜索。
1、Flink 实时计算在微博的应用 曹富强 / 微博机器学习研发中心数据计算负责人,高级系统工程师 数据计算平台介绍 #2 微博介绍 #1 Flink在数据计算平台的应用 #3 微博介绍 #1 微博 中国领先的社交媒体平台 日活跃用户DAU 2.41亿 月活跃用户DAU 5.5亿 移动月活占比 94% 数据计算平台介绍#2 概况 数据计算 实时特征 批流一体 数据仓库 概况 数 据 计 算 平 台 架 构 图 数据服务 数据计算 平台 集群 调度 业务推荐流关系流小视频广告搜索正文页动态流. 实时数仓特征工程离线数仓 数据同步内容去重多模态内容理解实时特征生成 Flink实时计算Storm实时计
2、算流式样本生成流式模型训练 Sql计算 tez WAIC-微博AI平台 Flink/StormHadoop/Hdfs K8s/Yarn 数据中台 数据计算 实时计算离线计算 主要包括 实时特征生成 实时样本生成 多媒体特征生成 其他实时计算 主要包括 即席查询 数据查询 数据生成 表管理 实时特征 作业提交-UI实时特征流程图 输入源 kafka redis trigger mcq 计算引擎 Storm 实时计算服务 Flink 实时计算服务 存储/查询 motan sdk 特征工程 业务应用 业务-1 业务-2 业务-3 监控 输入数据源监控作业异常监控特征写入监控特征读取监控 批流一体 批
3、流代码统一 提高开发效率 批流元数据统一 统一管理,保证元数据一致 批流程序混跑 节省资源 批流统一调度 提高集群利用 流式计算 批量计算 数据 仓库 离线日志 实时日志 YarnK8S 统一元数据 集群-1集群-2集群-3集群-4 计算引擎 Hive SQL/Spark SQL Flink SQL 统 一 调 度 数据仓库 架构图 建立实时数仓来解决离线特征更新周期长的问题 使用Flink Sql-解决stream 作业开发周期长的问题 离线数仓/实时数仓统一元数据管理 计算引擎 /元数据 实时数仓 离线数仓SRC/原始日志DWM/数据中间层DWS/数据服务层 Hive/Spark Flink Sql MetaStore kafkaFlink SqlkafkaFlink Sqlkafka 实时存储 ES/Hbase/Redis/ClickHouse SRC/原始表DWM/数据中间层DWS