1、演讲人:徐国政 数据技术专家淘天集团-客运基于Alake(Paimon+Spark+StarRocks)的湖仓建设实践客运业务01客运数据架构演进02客运湖仓架构03未来展望06目 录CONTENTS应用场景04阶段成果05客运业务承接大淘系服务与体验业务客运业务-业务核心流程数万客服数亿咨询千万智能客运业务-业务特点复杂的处理过程丰富的数据源丰富的数据应用 DBMS 日志、订单等 半结构化/非结构化 漫长的业务过程 双流join 动态列更新 智能预测 服务洞察 商家考核客运数据架构演进客运架构演进2018年之前2018-202020212024 计算统一&存储统一&服务统一 元数据管理 稳定
2、性提升烟囱式开发场景简单 不能做到完全的流批一体 Holo成本较高 业务分析场景用数费力度高ODPSBlink服务引擎HbaseMysql小蜜大屏规模小,重加工针对应用 场景定制开发架构架构问题问题架构架构概况概况 Lambda架构 数据出口无强管控 数据孤岛实时数仓Hologresodpsflink二次消费回流统一数据服务LindormHologres点查OLAPHA3检索ODPSBlink服务引擎LindormADB-HologresHologresTo B/To C对内运营点查OLAP引入OLAP:ADB-Hologres引入数仓分层概念,加大中间层建设全员参与实时开发架构架构1.01.
3、0架构架构2.02.0架构架构3.03.0XP高性能写入客运架构演进-老架构概况客运湖仓架构-现有架构痛点调研您公司的LOGO数据开发视角:多 套 逻 辑 并 存:同 时 维 护 实 时/准 实 时/离 线 三 套 逻 辑,开发 成 本 高;存 储 冗 余,数 据 一 致 性 难 以 保 障分 析 链 路 复 杂:O L A P 数 据 需 要 二 次 导 入,形 成 孤 岛;分 钟 级 需 求 被 迫 选 择 实 时 链 路,浪 费 资 源运 维 挑 战:中 间 件 资 源 隔 离,无 法 弹 性 调 度业务用数视角:用数门槛高同一业务需要学习多张表(如touch存在4张表)实 时 数 据
4、使用门槛高,依赖定制开发性能瓶颈离线查询响应慢,影响分析效率解决方案:解决方案:重 塑 数 据 底 座,提 升 数 据 新 鲜 度、提 升 数 据 查 询 性 能,从 而 实 现 真 正 的 流 批 一 体、湖 仓 一 体客运湖仓架构-新架构依托alake,重构数据底座,统一开发平台,实现湖仓一体,流批一体客运湖仓架构-数据流您公司的LOGO客运湖仓架构-入湖您公司的LOGO传统数据入仓:多 套 入 仓 策 略:离 线 增 全 量 同 步 入 离 线 数 仓;实 时 入 实 时 数 仓表 结 构 维 护 困 难:业 务 库 表 结 构 变 更 无 感 知;需 要 手 动 变 更 消 息 队 列
5、 和 o d s 表 的 D D L变 更 之 后 需 要 回 刷 数 据客运湖仓架构-入湖您公司的LOGO通过数据集成工具,快速将TDDL/MYSQL数据同步入湖一 键 启 动 数 据 同 步,表 D D L 变 更 同 步、离 线 数 据 全 量 同 步、增 量 数 据 实 时 同 步客运湖仓架构-数据处理您公司的LOGO客运湖仓架构-湖表管理您公司的LOGO通过paimon的catelog,管理湖表Flink开发直接读写paimon表,不需要创建临时表客运湖仓架构-数据质量管理您公司的LOGO实时入湖监控湖表DQCODPSDQC是否为空波动环比列枚举自定义sql客运湖仓架构-StarRo
6、cks您公司的LOGOSR作为数据加速层,数据分析场景都通过SR的内外表来支持,稳定性至关重要。存算分离架构的SR,通过资源组隔离的方式来消除应用查询之间相互影响的问题。不同应用场景之间通过jdbc连接来区分:jdbc.url=jdbc:mysql:/:3306/dbName?sessionVariables=warehouse=应用场景湖仓架构-大促小屏您公司的LOGO大促期间,通过小时级别的退款量来判断是否有逆向问题,及时布控难点:锁单口径:需要以订单支付时间作为统计周期