《基于 OceanBase 阿里云 DataWorks 构建一站式数据集成、开发和数据服务_罗海伟.pdf》由会员分享,可在线阅读,更多相关《基于 OceanBase 阿里云 DataWorks 构建一站式数据集成、开发和数据服务_罗海伟.pdf(20页珍藏版)》请在三个皮匠报告上搜索。
1、构建一站式数据集成、开发和数据服务罗海伟阿里云高级技术专家基于 OceanBase 阿里云 DataWorks01 DataWorks 介绍介绍阿里云 DataWorks 历史发展、模块架构等02 DataWorks OceanBase 数据集成原理介绍 DataWorks 针对 OceanBase 的数据集成原理,以及后续规划03 在 DataWorks 中做 OceanBase 数据集成、开发示例介绍在 DataWorks 中,基于 OceanBase 做数据集成、开发、服务案例演示Contents目录DataWorks 与数万家企业数字化转型一路同行DataWorks 是一站式智能化数据
2、开发与治理平台,支持 MaxCompute/Hologres/AnalyticDB/E-Mapreduce/CDH/CDP 等大数据引擎,为企业构建现代数据仓库、数据湖以及湖仓融合数据架构提供数据平台产品解决方案。作为阿里巴巴大数据平台建设者,DataWorks 从 2009 年起不断沉淀阿里巴巴大数据建设方法论并产品化,同时与数万家政务/金融/零售/互联网/能源/制造等阿里云客户携手,助力企业数字化升级。非最新数据https:/ 产品模块架构数据治理业务场景开放平台政务云/城市大脑行业数据中台用户增长/分析/营销智能搜/推/广车联网/智能制造数据报表/大屏数据分析与应用开放接口开放消息开放数
3、据扩展点与扩展程序数据质量质量规则模板智能规则推荐动态规则阈值离线表、消息通数据资产地图元数据采集数据目录和检索全链路数据血缘影响分析数据安全数据权限管理数据分级分类隐私数据保护风险预警访问审计数据治理中心检查器(事前预防)治理项(事后发现)问题处理方案健康分评估模型规范设计数仓规划数据标准数据指标维度建模ER建模(Datablau)数据开发离线/实时/交互式分析/AI一体化集成开发环境任务统一调度任务运维和监控数据分析自助分析电子表格Notebook数据服务低代码化数据API构建服务编排API网关计算存储引擎阿里自研大数据计算服务(MaxCompute)交互式分析引擎(Hologres/An
4、alyticDB)开源数据湖计算平台(E-MapReduce)其他数据平台等(CDH/CDP/StarRocks/OceanBase)数据集成全量同步增量同步实时同步整库迁移分库分表同步数据转换DataWorks 数据集成平台包含功能异构数据存储、可靠、安全、低成本、可弹性扩展的数据同步平台离线/实时全覆盖繁多异构数据源安全控制运维监控支持复杂网络同步解决方案10PB+/每日数据同步数据集成 OceanBase 批同步原理基于数据库JDBC协议或数据源SDK进行读写OceanBase 源端jobsplittask1task2task3task4select min(select min(spl
5、itPksplitPk),max(),max(splitPksplitPk)from table)from tableDataX/DataXCDCReaderWriterBuffer Pooltaskthreadthreadselect c1,c2,from table where splitPk=min1 and splitPk=min1 and splitPk 云数仓同步典型场景:OceanBase 中存储面向OLTP数据,数据汇聚到数仓平台(MaxCompute、Hologres等)挖掘数据价值一键实时同步至MaxCompute:https:/ MySQL/MaxCompute-Ocea
6、nBase 同步典型场景:OceanBase 汇总存储分析型数据做OLAP分析;OceanBase 存储分享结果数据支撑数据服务和数据应用https:/ OceanBaseStep3:在 DataWorks 中对 OceanBase 数据执行分析典型场景:配置和编排ELT数据处理工作流,帮助企业构建离线数仓、实时数仓与即席分析系统智能SQL IDE与可视化工作流编排AI加持SQL编辑器,智能提示,拖拽式构建数据工作流稳定高效的调度系统自动解析任务依赖,千万级日调度能力,细粒度