《翼支付数仓建设与数据治理实践之路(1).pdf》由会员分享,可在线阅读,更多相关《翼支付数仓建设与数据治理实践之路(1).pdf(17页珍藏版)》请在三个皮匠报告上搜索。
1、翼支付数仓建设与数据治理实践之路黄洛 翼支付 高级数据仓库开发翼支付介绍翼支付介绍天翼电子商务有限公司是中国电信集团有限公司的成员企业,是国资委双百改革和发改委第四批混改“双试点”企业,也是“双试点”企业中唯一的金融科技公司。公司以翼支付APP为载体,提供支付方案、会员权益、民生服务、分期借贷、保险理财、消费电商等服务内容,依托区块链、云计算、大数据、人工智能等技术,致力于推动包括生活服务、金融服务的数字化升级秉持“响应监管、服务民生、资源共享、合作多赢”的理念,聚焦“开放、安全、便捷”的核心产品力,翼支付坚持通过服务投入与产品升级,构建贴合需求的管理与业务体系,以交流融合的业务实践,推动产业
2、各方实现数字化转型。讲师简介讲师简介9年数据仓库开发及数据治理经验,曾就职于众安保险。2019年加入翼支付,现就职于大数据与人工智能研究院,负责金融版块业务数仓建设及治理。有丰富的数仓建设、数据治理实践及大数据平台应用经验。黄洛高级数仓开发C CO N T E N T S数据治理背景数据治理建设内容数据治理成效未来规划企业级数仓建设代码冗余、任务时效不稳定祖传代码严重,任务链路长,烟囱式开发严重,任务时效得不到保障。元数据信息严重缺失缺少建表责任人、字段中文备注、分区字段随意等,导致库表清理及新人上手难度很大。数据口径差异明显在一些整合数据口径下,由于各自整合口径来源不同,后续指标口径不一致数
3、据安全风险高敏感数据未加密,数据下载入口多或无下载记录等,数据安全风险高。数据治理背景数据治理建设内容平台建设平台建设依托数据开发平台、BI平台、元数据管理平台、数据资产平台,构建统一的数字化和数据平台架构数据应用治理数据应用治理通过提升数据易用性、缩短计算和查询时效、提升数据质量、降低计算存储成本,构建敏捷的商业分析和数据洞察能力数据规范数据规范通过规范业务生产系统数据保证源数据的质量,构建数仓规范、主数据&元数据管理、数据分类分级保证数仓数据治理的质量等,形成完成全面的数据治理标准数据安全数据安全从数据存储、数据传输、数据使用三个方向进行数据安全链路改造,让企业数据符合国家对于数据安全的合
4、规要求组织协同组织协同成立数据治理委员会(牵头各组织协同推进治理进程,为治理分歧的最终决策组织)、技术架构委员会(公司系统信息架构审核,基础数据规范推行落地,提升原始数据质量)、治理实施小组(治理的落地组织,由业务、研发、大数据组成,统一考核,统一调度),在数据治理委员会的统筹下,紧密协作,形成统一、顺畅、敏捷的组织协同链路企业级数仓建设-调研阶段01020304数据开发平台:hive-spark计算引擎升级,双环境调度开发保障、数据质量监控保障、数据运行监控保障、任务运维等即席查询平台:提供数据探查入口、管理数据下载审批流程等自研报表平台:自研可视化平台,推动国产化进程指标管理平台:管理原子
5、指标、派生指标、衍生指标的相关元数据信息元数据平台:覆盖建表管理、数据地图管理、血缘分析管理、表生命周期管理、冷热数据自动化管理、安全分类分级自动化管理企业级数仓建设-平台护航平台是骨架,数据是血液!企业级数仓建设-数仓分层企业级数仓建设-维度建模选择业务过程:以业务为基础,选择需要建模的业务过程,如授信、放款、还款、催收等均为不同的业务过程声明粒度:粒度是维度建模中非常重要的要素之一,在同一事实表中,必须有相同的粒度,不能混用多种粒度(如grouping sets),如授信表中的授信流水号,订单表中订单号等确认维度:维度在业务分析中占据了核心地位,一个好的数仓模型,通常会在不改变粒度的情况话
6、退化一些常用的维度信息确认事实:事实一般是数值类可累加的、不可重复的,在维度建模中一定要注意维度退化造成的数据重复问题,后续模型建设好也需要配置数据质量监控维度建模四步曲命名规范企业级数仓建设-维度建模表命名规范:包含层级、数据域、产品线、业务过程、刷新周期、增全量标识等。如:dwd_数据域缩写_产品缩写_业务过程缩写_自定义命名缩写_刷新周期标识单分区增量全量标识 字段命名规范:建设数仓共有的词根命名规范,原子指标命名如 crdt_cnt(代表次数),crdt_num(代表人数);派生指标命名不可以在已命名的原子