1-5 T3出行在现代数据栈上的探索和实践.pdf

编号:101921 PDF 29页 2.83MB 下载积分:VIP专享
下载报告请您先登录!

1-5 T3出行在现代数据栈上的探索和实践.pdf

1、李心恺 T3出行 算法平台负责人|什么是Modern Data Stack T3出行的业务场景T3出行MDS的初步打造特征平台 On MDS目 录 CONTENT|什么是Modern Data Stack|Modern Data Stack 特点 Modern:更简单和通用 Data:数据处理领域 Stack:技术栈、技术组件的组合|为什么要有Modern Data Stack u 过去:技术组件-数据-架构u 现状:数据-业务场景-架构、技术栈(匹配易用低廉)u 目的:数据 -知识|Modern Data Stack组成 统一存储:解决数据孤岛、降低数据环境的复杂度 数据处理:原始数据加工、

2、转换、ETL、任务调度 数据智能:大规模机器学习和深度学习等技术对数据价值信息提取 数据分析:提取有用信息和形成商业结论|T3出行的业务场景|公司的业务场景|T3出行是一家基于车联网驱动的智慧出行平台,拥有海量且丰富的数据源。因为车联网数据多样性,随着业务发展,数据的增多,最初的传统数仓架构遇到了诸多挑战。亟需新的架构迭代升级,更好的支撑公司业务发展。|支付长尾支付长尾:下次出行前支付!可能长达数月的超长的业务闭环窗口冷热数据随机更新,无法识别级联更新,链路长,成本高订单支付率时间|业务系统数据摄入非结构化数据视频数据小文件问题车联网数据小批量数据低延迟数据非结构化数据和小文件|算法业务场景营

3、销风控运力调度用户画像、广告推广风控、安全、判责车辆运力调度T3出行MDS的初步打造|Apache Hudi体系Hudi是一个流式湖仓一体平台,支持对海量数据快速更新。内置表格式,支持事务的存储层、一系列表服务、数据服务(开箱即用的摄取工具)。|Apache Kyuubi体系Thrift JDBC/ODBC 服务可扩展多租户和分布式Servless SQL on Lakehouse|数据分析Spark EnginePresto EngineEngineStoragesession asession bsession cKyuubi GatewayClientBI工具|数据处理workflow

4、1 of user Aworkflow 2 of user Aclient aclient bworkflow 1 of user Bclient csession asession bsession c As EngineBs EngineKyuubi GatewayCompute EngineData StorageRaw TableDerived TableIncremental ETL数据存储OBS资源编排YARN计算引擎Flink任务调度Dolphin Scheduler数据接入Kafka计算中间件一站式平台入口算法平台|特征平台 On MDS|特征平台作用 统一特征输出:特征使用都

5、通过特征平台,减少沟通成本,提高迭代效率 特征复用:统一特征接入和上线流程 质量监控:收拢出口,监控特征数据质量和使用频次人和人交流 转变为 人 和 平台交互,提高特征加工迭代效率|特征平台|特征平台技术栈选型 需要一个数据集定义的指标工具,作为特征数据的Datasource 需要一个特征存储组件 能够和数据湖架构很好的组合对接|Metricflow 指标即代码:MetricFlow 将简单的度量定义转换为可重用的 SQL,并针对选择的 SQL 引擎执行它 数据连接器:DW 连接器允许用户为各种数据仓库构建度量逻辑 Python SDK:将指标拉入本地 Python 环境,例如 Jupyter

6、 或其他分析接口 物化:定义一组指标和维度。能够将非规范化数据集快速存储|FeastFeast 是一个用于机器学习的开源特征存储组件。Feast 对管理现有基础架构以生产用于模型训练和在线推理的分析数据提供了便捷。|元数据统一管理视频数据视频数据车联网数据车联网数据MetricFlow 语义层语义层非结构非结构数据数据元数据元数据数据数据集集Table Schema结构数据结构数据|数据集语义参考了Metricflow对指标语义定义的YAML文件数据集拓展 结构化数据 非结构

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(1-5 T3出行在现代数据栈上的探索和实践.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠