1、网易数据中台建设实践Agenda1什么是数据中台?2元数据中心:数据中台的基石4数据服务:数据中台的门户3数据治理:效率、质量、成本5数据中台治理效果什么是数据中台 如果我们把数据中台比作一个汽车工厂数据中台汽车工厂大数据平台设备:切割机Hadoop集群水、电、煤输入的是原始数据,输出的是指标提供的是数据加工处理能力提供的是大数据基础计算、存储资源提供的工厂必须的运行能源提供的是原材料的处理能力输入的是原材料,输出的汽车数据中台需要解决什么问题?数据效率质量成本数据研发的效率数据发现的效率数据分析的效率指标一致性数仓设计质量数据质量计算、存储资源成本研发人力成本网易数据产品体系:以电商为例用户
2、运营用户行为分析系统商品运营用户精准投放系统商品运营系统市场运营推广渠道管理系统供应链供应链决策协同系统管理层商品舆情系统高层看板活动实时直播Vipapp业务场景数据产品网易在做数据中台前面临的挑战指标口径不一致数据重复建设取数效率低成本指数增长数据无法按时正确产出数据中台支撑产品:网易猛犸网易有数网易大屏自助分析行业数据产品行业业务系统数据服务数据服务数据集成数仓设计数据开发数据治理运维安全数据传输日志采集数据填报埋点管理指标系统数仓设计离线开发实时开发数据测试成本治理质量治理数据地图任务运维智能报警权限中心产品特色“组件式”产品架构,业务可以根据发展阶段选择性搭配“开放式”产品架构,聚焦核
3、心通用产品,同时开放基础能力,允许业务集成新的产品“轻型易用”平台,通过“增强分析”降低用户使用的门槛 完美的支撑数据中台建设,减少重复建设,提高数据共享能力网易数据中台产品架构Agenda1什么是数据中台?2元数据中心:数据中台的基石4数据服务:数据中台的门户3数据治理:效率、质量、成本5数据中台治理效果元数据中心:数据中台基石元数据中心元数据中心数据血缘数据字典数据特征API 服务Service LayerSpark ListenerHive HookSqoop Hook静态解析Kafka血缘消息处理Neo4j时间戳来源类型Conn ManagerHive ConnMySQL Conn内嵌
4、元数据Conn内嵌元数据管理血缘采集血缘采集标签管理访问热度生命周期存储空间元数据库版本索引通知MySQLMetaStoreRedisKafka数据地图解决“有哪些数据可用?”,“到哪里找数据?”Agenda1什么是数据中台?2元数据中心:数据中台的基石4数据服务:数据中台的门户3数据治理:效率、质量、成本5数据中台治理效果如何评价一个数仓设计好坏?大量的表没有明确的主题域、业务过程,分层信息,数仓组织混乱超过50%的任务直接引用ODS 层原始数据,30%的表存在跨层引用,DWD建设完善度较低DWS 层表复用性差,平均表引用系数低依然有查询ODS 层原始数据的Query,DWS,ADS Que
5、ry 覆盖率低,取数效率差表、字段命名规范混乱,数据发现困难规范化数仓设计EasyDesign数仓设计度量各层表的分布以及各层被下游表和任务引用情况,Query 查询覆盖率DWD:ODS 被跨层引用的表的数量DWD 平均被下游表引用系数DWS:DWS 平均被下游表引用系数DWS Query 覆盖率ODS 被Query 查询情况规范化管理度量管理维度管理模型设计团队协作审批流程基础字典管理数仓升级的目标覆盖度消灭ADS/DWS 直接引用ODS 层原始数据消灭Query直接查询ODS 层原始数据DWS/ADS Query 覆盖度上升复用性DWS、DWD 平均每张表被下游表引用数量增加规范性表、字段
6、命名规范统一建表流程审核需求响应速度提升、查询速度提升、查询成本降低,数据使用者满意度提升!指标系统指标系统规范定义业务线(网易考拉)数据域(交易域)业务过程(下单)维度(商品)修饰类型(终端类型)修饰词(pc)时间周期(昨日)原子指标(销售量)派生指标(昨日pc端销售量)维度属性(商品id,名称)指标开发实施规范在做数据质量前业务面临的现状超过90%的问题是由业务和产品发现收集的问题中存在研发bug的占比超过50%报障人群统计业务产品开发分析师故障问题分类BUG数据源问题数据延迟性能数据质量方法论01030402完整性是指需要的数据已完整记录,可以分为