《云粒智慧实时数仓演进之路_付大伟.pdf》由会员分享,可在线阅读,更多相关《云粒智慧实时数仓演进之路_付大伟.pdf(16页珍藏版)》请在三个皮匠报告上搜索。
1、数据中台应对智慧城市、生态环保等领域的实践付大伟云粒智慧-数据智能事业部云粒智慧实时数仓演进之路01 业务背景及挑战将数据中台作为产品应用于智慧城市、生态环保等领域面临的问题和挑战02 实时数仓的架构演进在传统数仓技术框架下做的一系列努力之后跨进到 FlinkCDC 结合 OceanBase实时数仓演进过程03 项目实践及未来规划项目上的成功应用以及后续规划Contents目录智慧城市生态环保政务服务一体化公共数据开放一网统管环保领域水利行业公司介绍主要业务三中台&智能化业务云粒智慧科技有限公司成立于2018年6月,以智能化、数字化产品为核心,致力于构建未来城市数字化基础设施平台。“数据中台、
2、应用中台、智能中台及智能化应用”的一体化解决方案,其业务已覆盖350+个城市,助力200+个城市政府单位实现了数智化转型。应用中台孔雀大屏报表引擎低代码平台数据中台方法论治理服务中台产品智能中台视频接流平台事件中心智能化应用业务服务服务接入数据中台产品星河数据中台集“方法论+产品+服务”的中台体系,提供数据采集、融合、治理、计算、分析、服务、可视化的全链路一站式管理与服务,助力充分释放数据要素价值,打造业务和数据的闭环,持续赋能行业应用化转型。经过五年5大版本迭代,累计完成100+客户项目的落地交付!K8s集群存储计算Kafka集群文件存储Minio集群HTAP引擎(OceanBase)流计算
3、引擎Flink 集群分布式协调元数据库引擎OS调度引擎微服务控制面接入面门户存储引擎数据分区SQL引擎事务引擎存储引擎数据分区SQL引擎事务引擎.政务领域业务跨度较大,多种数据源、不同频率的数据汇集,带来很多业务复杂性问题。多业务线 形态各异计算资源缺乏各项目3-5台计算资源,难以运行大规模计算;服务器资源匮乏,大量数据计算往往耗时较长;数据实时性较强各单位追求业务协同效率,如:防汛减灾、水质污染等实时告警场景业务协同需求强业务特点实时数据入仓带来了诸多小文件问题,虽然项目组在Flink的框架下做了诸多优化,仍然无法满足大屏监控、预警、数据消费等应急场景需求。运维挑战资源利用率灵活性星河数据中
4、台数据时延技术挑战数据中台作为一个大数据处理系统,数据引擎是其核心,以Hive为主的传统数仓建设在项目落地实施的过程中,我们也遇到了诸多痛点数据更新方式仅支持全表/分区级覆盖,应对远景冷区部分数据更新时,处理逻辑复杂且低效。数据中台V1.X-V3.X版本中,依托Hive、Hadoop系列中间件作为存储计算引擎,也带来了很多挑战组件众多,配置、监控、伸缩、保活等都极大地增加了运维工作量。高可用场景下每个节点均需要多个进程,容器部署性能下降。受限于YARN的调度策略,需要在项目中依据任务和资源情况逐个调优,任务量增加后仍需持续投入,难以一劳永逸。开源协议云原生支持集群模式私有化部署成熟度一、架构简
5、洁易维护:OceanBase 的架构更加简洁,由 OBServer 和 OBProxy 构成,运维多套项目环境节省成本,更加便利;二、多租户、资源隔离:云粒数据中台作为一个原生多租户系统,使用 OceanBase 的多租户体验更佳;三、良好的生态:OceanBase 的社区、生态更加开放,如数据集成专为 DataX 开发插件,FlinkCDC 的 connector,贴合我们路线;性能测试,每次处理1GB数据量,三台 8C32GB 服务器集群(处理时延速度提升24倍)内容产品HiveOceanBase数据接入21s14s数据更新1(两表关联)24s1s数据更新2(五个表关联)39s10s学习成
6、本低适配容易额外收益运维简单OceanBase技术选型数据引擎作为基础软件百花齐放,没有最好的只有更适合自己的,怎么判断是否适合,对于云粒而言,主要有如下五点:选用Flink-CDC实时同步面对诸多的实时同步框架,Flink-CDC 在分布式架构设计、全量/增量同步支持及灵活性方面有很大优势平台契合度同步方式全量同步、增量同步、全量+增量同步,助力业务交付人员,数据源接入花费时间节省65%性能指标在提供 4Slot4G 内存配置情况下对常用数据库进行同步测试,增量同步500万数据约31s完成。全量同步500万数据约200s完成。(MySQL、SQLSer