您的当前位置: 首页 > 新闻中心 > 行业知识 > 数据治理为什么很重要?方法有哪些?

数据治理为什么很重要?方法有哪些?

1.数据治理的定义

在大数据时代背景下, 治理理论相对完善,在当前形势下的连续取得成就的现状来看,伴随着数据治理的理念和逐步推动的信息技术发展,数据治理概念也已经被公众所接受。

数据治理是数据资源及其应用过程中相关管控活动、绩效和风险管理的集合,是将数据作为治理对象,从元数据管理开始,进行数据标准、数据安全建设,逐步扩展到流程建设、组织保障,最终形成全生态体系,为国家或组织发展提供基础性和战略性资源。

数据治理

2.数据治理为什么很重要

(1)数据质量层次不齐

“数据资产化”的概念已经被大多数人理解和接受。不论是企业、政府、校园还是其他组织机构,对于数据资产的管理越来越重视。然而,数据并不等于资产,也就是说不是所有数据都是数据资产,数据中也有垃圾数据。需要治理的是能够创造价值的数据资产,而不是全部数据。

(2)数据交换和共享困难

信息化建设初期缺乏整体的信息化规划,系统建设大多都是以业务部门驱动的单体架构系统或套装软件,数据分散在这些架构不统一、开发语言不一致、数据库多样化的系统中,甚至还有大量的数据存放在员工的个人电脑中,导致在企业内部形成了一个个的“信息孤岛”。这些“孤岛”之间缺乏有效的连接通道,数据不能互联互通,不能按照用户的指令进行有意义的交流,数据的价值不能充分发挥。只有联通数据,消除这些“信息孤岛”,才能实现数据驱动业务、数据驱动管理,才能真正释放数据价值。

(3)缺乏有效的管理机制

许多企业或学校都认识到了数据的重要性,并尝试通过生产系统的业务流来控制数据流,但由于缺乏有效的管理机制和某些人为的因素,在数据流转过程中,存在数据维护错误、数据重复、数据不一致、数据不完整的情况,导致了产生了大量的垃圾数据。数据产权不明确,管理职责混乱,管理和使用流程不清晰,是造成数据质量问题的重要因素。

(4)存在数据安全隐患

2018年3月份的Facebook5000万用户信息被泄露和滥用的事件,受该事件影响,Facebook股价当日大跌7%,市值缩水360多亿美元,而盗用数据的剑桥分析这家公司也于同年5月停止运营,并申请破产。这种数据安全事件,在我国发生频率更多,2011年,黑客在网上公开了CSDN的用户数据库,高达600多万个明文的注册邮箱账号和密码遭到曝光和外泄;2016年,顺丰员工盗取大量客户信息被送上法庭;2017年,京东员工盗取用户个人信息50亿条,并通过各种方式在网络黑市贩卖。近年来,随着大数据的发展,诸如此类的数据安全事件多不胜数。数据资产管理上,正在由传统分散式的人工管理向计算机集中化管理方向发展,数据的安全问题愈来愈受到人们的关注。

3.数据治理的主要方法

(1)数据资源梳理:数据治理的第一个步骤是从业务的视角厘清组织的数据资源环境和数据资源清单,包含组织机构、业务事项、信息系统,以及以数据库、网页、文件和API接口形式存在的数据项资源,本步骤的输出物为分门别类的数据资源清单。

(2)数据采集清洗:通过可视化的ETL工具(例如阿里的DataX,PentahoDataIntegration)将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,目的是将散落和零乱的数据集中存储起来。

(3)基础库主题库建设:一般情况下,可以将数据分为基础数据、业务主题数据和分析数据。基础数据一般指的是核心实体数据,或称主数据,例如智慧城市中的人口、法人、地理信息、信用、电子证照等数据。主题数据一般指的是某个业务主题数据,例如市场监督管理局的食品监管、质量监督检查、企业综合监管等数据。而分析数据指的是基于业务主题数据综合分析而得的分析结果数据,例如数字化校园管理中的教师生分析、学科人数分布、校况分析等。那么基础库和主题库的建设就是在对业务理解的基础上,基于易存储、易管理、易使用的原则抽象数据存储结构,说白了,就是基于一定的原则设计数据库表结构,然后再根据数据资源清单设计数据采集清洗流程,将整洁干净的数据存储到数据库或数据仓库中。

(4)元数据管理:元数据管理是对基础库和主题库中的数据项属性的管理,同时,将数据项的业务含义与数据项进行了关联,便于业务人员也能够理解数据库中的数据字段含义,并且,元数据是后面提到的自动化数据共享、数据交换和商业智能(BI)的基础。需要注意的是,元数据管理一般是对基础库和主题库中(即核心数据资产)的数据项属性的管理,而数据资源清单是对各类数据来源的数据项的管理。

(5)血缘追踪:数据被业务场景使用时,发现数据错误,需要快速定位数据来源,修复数据错误。那么数据治理需要知道业务团队的数据来自于哪个核心库,核心库的数据又来自于哪个数据源头。我们的实践是在元数据和数据资源清单之间建立关联关系,且业务团队使用的数据项由元数据组合配置而来,这样,就建立了数据使用场景与数据源头之间的血缘关系。数据资源目录:数据资源目录一般应用于数据共享的场景,例如政府部门之间的数据共享,数据资源目录是基于业务场景和行业规范而创建,同时依托于元数据和基础库主题而实现自动化的数据申请和使用。

(6)质量管理:数据价值的成功发掘必须依托于高质量的数据,唯有准确、完整、一致的数据才有使用价值。因此,需要从多维度来分析数据的质量,例如:偏移量、非空检查、值域检查、规范性检查、重复性检查、关联关系检查、离群值检查、波动检查等等。需要注意的是,优秀的数据质量模型的设计必须依赖于对业务的深刻理解,在技术上也推荐使用大数据相关技术来保障检测性能和降低对业务系统的性能影响,例如Hadoop,MapReduce,HBase等。商业智能(BI):数据治理的目的是使用,对于一个大型的数据仓库来说,数据使用的场景和需求是多变的,那么可以使用BI类的产品快速获取需要的数据,并分析形成报表。

(7)数据共享交换:数据共享包括组织内部和组织之间的数据共享,共享方式也分为库表、文件和API接口三种共享方式,库表共享比较直接粗暴,文件共享方式通过ETL工具做一个反向的数据交换也就可以实现。我们比较推荐的是API接口共享方式,在这种方式下,能够让中心数据仓库保留数据所有权,把数据使用权通过API接口的形式进行了转移。API接口共享可以使用API网关实现,常见的功能是自动化的接口生成、申请审核、限流、限并发、多用户隔离、调用统计、调用审计、黑白名单、调用监控、质量监控等。

以上就是有关于数据治理的定义、重要性及主要方法的全面梳理,如果还想了解更多数据治理的相关内容,敬请关注三个皮匠报告网站。

推荐阅读

什么是边缘数据中心?核心技术分析

什么是云原生数据湖?怎么样?简单介绍

《2022六大行数据治理现状盘点:治理架构、数据标准与数据平台(10页).pdf》

《华为:数据湖治理中心-数据治理方法论(2021)(22页).pdf》

本文由作者AG发布,版权归原作者所有,禁止转载。本文仅代表作者个人观点,与本网无关。本文文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

相关报告

碳会计财务伙伴关系(PCAF):金融行业的全球温室气体会计及报告准则(英文版)(134页).pdf
碳会计财务伙伴关系(PCAF):金融行业的全球温室气体会计及报告准则(英文版)(134页).pdf

碳会计金融合作伙伴关系是一个行业主导的倡议。由荷兰金融机构于2015年创建,PCAF于2018年扩展到北美,并于2019年扩展到全球。PCAF通过温室气体核算帮助金融机构评估和披露其贷款和投资的温室气体排放量。温室气体核算使金融机构能够按照金融核算期在固定时间点披露这些排放量。衡量资助的排放量使金融机构能够

【研报】金融行业专题:中国的老百姓“长什么样“?高净值客户有什么特征?-210315(26页).pdf
【研报】金融行业专题:中国的老百姓“长什么样“?高净值客户有什么特征?-210315(26页).pdf

总量上看:我国居民负债约90%为贷款(根据社科院数据,剩余10%为P2P、民间借贷、个体户应付账款等); 2020年末我国居民部门总贷款规模62.3万亿,人均贷款4.5万元,过去5年年均复合增速18.5%,增速较快; 结构上看:A、长期消费贷(住房按揭)共计40.8万亿,占比64.6%,“房住不炒”基调下,

【研报】金融行业中国养老金三支柱行业深度报告:商业养老未来是星辰大海-210317(37页).pdf
【研报】金融行业中国养老金三支柱行业深度报告:商业养老未来是星辰大海-210317(37页).pdf

2020 年四季度以来,政府部门多次提出加快建设养老金第三支柱,持续向市场释 放鼓励第三支柱发展的政策信号;从实践来看,继 2018 年 5 月税延商业养老保 险试点落地后,2021 年 3 月专属商业养老保险试点落地,第三支柱实践深化。鼓励第三支柱发展的政策信号近期密集释放从此前政策来看,2007 年,原

【研报】金融行业:基金投顾业务发展研究-210331(20页).pdf
【研报】金融行业:基金投顾业务发展研究-210331(20页).pdf

美国成功投顾业务发展模式分析美国的基金投顾业务起步较早。1940 年,美国颁布了投资顾问法,以规范管理投资顾问开展投资咨询相关活动过程中的各项行为。经过 70 余年的发展,美国的基金投顾市场极度成熟。根据 ICI2020 年发布的美国投资公司发展报告,在通过 401k、403b、IRA 等退休计划之外渠道投

【研报】金融行业2021年信托市场年度报告:监管“从严”基调不变转型发展攻坚期-210610(20页).pdf
【研报】金融行业2021年信托市场年度报告:监管“从严”基调不变转型发展攻坚期-210610(20页).pdf

3.2. 金融类信托2020 年,新发行的集合信托中投向金融领域的规模为 10942 亿元,同比增加 58.9%;规模占比36.1%,较2019 年上升10.3 个百分点。金融类信托表现异常突出。这其中主要是靠标品信托的规模的增长来拉动的。标品信托是指信托公司依据信托文件的约定,将信托资金直接或间接投资于公

【研报】金融行业碳中和背景下的金融体系发展专题报告:全面实现双碳目标绿色金融大有可为-210614(52页).pdf
【研报】金融行业碳中和背景下的金融体系发展专题报告:全面实现双碳目标绿色金融大有可为-210614(52页).pdf

碳融资:主要集中于绿色信贷和绿色债券绿色信贷增速快于贷款总额,投放力度持续加大绿色信贷是我国绿色金融体系重要的组成部分。目前我国银行业绿色信贷主要产品主要由三大类型组成,分别为:面向绿色项目的担保类信贷产品,排碳排污额度相关的金融衍生品型信贷产品以及未来收益权型信贷产品。其中,目前市场主要产品为面向绿色项目

巨量算数:2021金融行业生态及用户洞察报告(42页).pdf
巨量算数:2021金融行业生态及用户洞察报告(42页).pdf

超两成财经兴趣用户已购险,主要险种渗透率均有提升重疾、财险、教育为渗透率提升最快险种,用户避险意识进一步增强30岁以上、有孩子的用户保险意识激增女性、高收入用户风险防范意识强

2021年金融行业基金投顾业务发展分析报告(17页).pdf
2021年金融行业基金投顾业务发展分析报告(17页).pdf

美国成功投顾业务发展模式分析美国的基金投顾业务起步较早。1940 年,美国颁布了投资顾问法,以规范管理投资顾问开展投资咨询相关活动过程中的各项行为。经过 70 余年的发展,美国的基金投顾市场极度成熟。根据 ICI2020 年发布的美国投资公司发展报告,在通过 401k、403b、IRA 等退休计划之外渠道投

客服
商务合作
小程序
服务号
折叠