1、网易数据治理实践主讲人:傅正领域驱动设计启发下的AI视觉分析引擎构建主讲人:戴 昊演讲嘉宾介绍傅正 网易数帆大数据产品架构师 8年ICT、互联网领域从业经验,长期参与从事产品的设计、推广、运营等相关工作。在大数据产品方面有较丰富的经验,专注于BI、数据开发、数据治理等领域,主要负责指导网易数帆大数据产品功能设计、商业化推广及交付、产品功能客户场景落地。目录CONTENTS网易为什么要做数据治理123网易的数据治理过程治理成果与总结网易为什么要做数据治理1为什么要做数据治理?通过使用数据带来组织生产力的提升!企业中每一个参与运营的一线员工,都能够高频的依赖数据完成日常工作!网易数据治理的背景找不
2、到 数据地图90%的用户都是IT人员看不懂 78%的元数据都存在缺失,尤其是管理元数据和业务元数据信不过 每周都有10个以上的数据质量问题被投诉,且90%都是业务先发现的管不住 78%的数据在30天内都无人访问问题总结存在三方面的问题数据开发效率低、质量差数据开发数据文化及组织的缺失数据组织数据的找不到、看不懂、信不过、用不爽、管不住数据应用网易的数据治理过程2数据治理过程中的新问题对数据的成本和价值缺少精细化的管理05数据治理缺少闭环06开发与治理脱节01没有解决烟囱式的数据开发02不同平台之间缺少统一的管控03治理过程缺少可量化的监控04解决办法在传统数据治理的基础上,网易提出“开发治理一
3、体化”的核心思想,将数据治理的过程前置到数据开发环节,确保生产出来的数据就是符合标准和规范的,同时结合数据中台的构建思想,打破烟囱式数据架构,构建统一的指标管理体系和企业公共数据模型层,通过服务化的方式对外提供服务。开发与治理一体化湖内湖外数据统一治理数据中台架构数据治理360数据治理的持续闭环开发与治理一体化数据开发与治理一体化强调“先设计、后开发、先标准、后建模”,通过指标和数据标准的定义实现“规范即设计,设计即开发,开发即治理”的开发治理一体化理念。数据中台架构数据中台架构需要包括统一的指标管理体系、高复用、规范的公共层模型以及可交付的数据服务。在模型治理层面我们取得的成果跨层引用率:3
4、0.8%9.42%治理跨层依赖模型200+模型复用率:2.49.6迁移下线3.4W模型需求平均交付时间从一周提升至3天!一年范围的平均查询21秒!湖内、湖外数据统一治理基于逻辑数据湖构建“物理分散,逻辑统一”的数据中台体系。数据治理360明确治理范围量化数据价值体系化的数据治理元数据治理的持续闭环完整的元数据管理流程除了包括正常的发布流程之外,还需包括相应的治理流程,实现流程上的闭环。数据质量治理的持续闭环数据质量管理制度包括事前规则定义、事中质量监控、事后量化分析和问题追溯。截止目前,网易严选的核心表数据质量稽核规则覆盖率100%仅2022年下半年,通过质量监控发现的数据问题多大3W多次,其
5、中因发现严重的问题,自动及时阻断下游开发任务2500多次治理成果与总结3网易内部数据治理结果累计下线数据存储69PB(约占整个集团17%)。外部客户数据治理实施成效 1外部客户数据治理实施成效 21)从组织架构入手,数据治理结合企业内部组织架构及人员配置落实数据治理工作、权责分担机制,让数据治理工作稳定持久的推进下去。2)从业务流程入手,针对存量数据、新增数据制定不同的治理流程,结合产品的元数据管理系统,做到仓内仓外元数据统一管理。3)从产品工具入手,将整个数据治理流程贯穿于各个子产品模块中,打造开发与治理一体化的数据中台。数据治理专项建设实施效果u 元数据管理:多部门共同建设,携手推进数据治
6、理工作。截止8月,完成8个核心系统30,000余张表的全量元数据采集,创建采集任务58项、采集实例163项。当前正在推进对数据资产的质量提升和完善,新增元数据注册47项,累计注册2,814项。u 数据标准管理:基础数据标准179个,指标数据72个,搭建统一的公共字典合计7个,词根新增159个,制定两套数据标准分类方案,16项主目录细分数;完成金融市场部、风险管理总部等18个部门或单位的CISP报表指标口径填报优化。u 数据质量管理:为机构CRM上游数据源进行初步质量评估,已累