《7-3 快手智能数据管理2.0.pdf》由会员分享,可在线阅读,更多相关《7-3 快手智能数据管理2.0.pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、快手智能元数据管理倪顺 快手 大数据管理平台负责人|我介绍|倪顺快数据管理平台负责主要关注元数据、数据地图、数据资产治理、数据服务等技术领域主要负责数据管理平台研发01背景介绍元数据管理建设背景元数据管理建设面临问题和挑战03元数据驱动应用数据地图、资产管理数据治理、成本管控02系统架构和关键技术元数据管理的系统化落地实践元数据质量保障、类型系统、血缘分析建设04成果和展望主动元数据平台、智能元数据挖掘丰富元数据类型和应用目录 CONTENT|背景介绍快元数据管理发展历程元数据管理建设问题和思路元数据管理是什么01|背景介绍-常常遇到这些问题01懂数数据表的口径定义是什么?我该如何使用?找数我
2、要电商直播域的销售表,如何找到它?数据治理我想做数据治理、成本优化,却无从下手?资产价值面对海量数据资产,如何挖掘,如何淘金?|背景介绍-元数据管理是什么01元数据:关于数据的组织、数据域及其关系的信息,是描述数据的数据!#$%&(!#$%&()%*+,-./01./23./456789./:;?=AB5)#*+B5CD./EFG./EHG./EIG./JK!#$%()*+元数据管理:对元数据的创建、存储、整合、控制、管理的一整套流程元数据数据表生产任务数据服务BI 看板指标模型AB 测试.,-!#.|背景介绍-快元数据管理发展历程01201720192020初创阶段关键词:0-1元数据:
3、Hive为主存储单一平台 1.0 阶段关键词:初步平台化元数据:多种数据表平台产品化能力、找表平台 2.0 阶段关键词:统一平台,完备能力元数据:数据表、生产任务、数据应用平台产品:搜索表、血缘分析、数据治理、资产管理对外服务能力:接口服务、数仓服务|背景介绍-元数据管理1.0建设问题01数据源HiveDruidETL 任务其他系统表实体接入表实体查询存储表关系接入表关系查询存储平台1.0应用数据地图(找数)重“量”轻“质”应用场景单一,主要是数据地图找数 数据质量问题频发,10+次/周 服务稳定性差,故障 3次/年 烟囱式接入和服务 研发耗时2周研发效率服务质量牵引指标价值挖掘平台 1.0
4、架构平台 1.0 主要问题系统架构和关键技术关键技术系统架构02|元数据管理2.0建设思路02 优化系统流程、减少烟囱式建设 统一质量保障统一化 以终为始,从业务价值角度思考 主动赋能业务,充分挖掘元数据主动化 一致性、准确性、及时性 覆盖度 大数据全链路应用元数据 支撑核心业务场景 数据分级保障 故障 0次/年 接入流程统一化 研发耗时减少60%+研发效率服务质量牵引指标价值挖掘平台 2.0 思路:2个“化”|元数据管理2.0挑战02业务复杂挑战30+实体类型,结构各异5 种实体关系,包括列级和行级血缘规模巨大亿级 实体数量,亿级 实体关系日变更量千万级协作繁多20+团队横向参与,跨多部门5
5、+次跨团队沟通协作/周应用多样支撑 20+业务,包括调度及时性、日报看板 等P0核心场景,覆盖 上万 内部用户服务形态要求不一,包括在线查询、离线分析、消息推送、数仓服务等|系统架构02数据全链路日志上报数据收集数据同步存储引擎数据加工数据服务数据应用业务系统统一接入接入同步接入异步接入解析SQL解析配置解析加工衍生实体衍生关系产出数据存储消息总线统一存储存储ESJanusGraphMySQL稽查系统一致性准确性覆盖度及时性统一服务接口服务消息服务数仓服务挖掘自动分级资产价值原生应用数据地图血缘分析资产管理成本账单安全治理数据治理采集元数据使用元数据元数据管理升级点接解析场景化存储,图库选型数
6、据质量稽查系统|业务架构02抽象分类基础元数据资产元数据安全元数据衍元数据缘元数据元数据生产HiveDruidCK调度指标维度BI 系统ETL任务日报元数据管理平台统一接入服务实体接入血缘接入统一存储服务基础元数据数据模型数据存储数据质量数据状态资产元数据资产归属生命周期业务分类业务语义安全元数据表安全列安全隐私列权限归属衍生元数据资源占用数据分布数据定级数据版本血缘元数据表血缘任务血缘字段血缘埋点血缘统一查询服务实体查询血缘查询元数据应用数据地图搜索数据业务目录找数血缘查询业务案例数据详情变更通知资产管理资产大盘资产编辑资产交接资产回收治理平台治理大盘治理明细治理效果运营其他故障影响分析下线