1、元数据驱动的快手数据治理平台建设实践张蕤 快手数据平台开发工具链负责人张蕤负责快手离线/实时数据开发平台、大规模工作流调度、异构数据同步平台主要关注大数据平台架构、大数据治理、大数据应用等方向快手数据平台开发工具链负责人讲师简介流量内容粘性3.634 亿日活用户数6.260 亿月活用户数129.3 分钟平均使用时长235 亿互关用户对数25%月活用户中内容创作者占比快手简介快手数据平台简介通过大数据技术,对公司数据统一采集、存储、加工和挖掘形成高质量的数据资产,以分析决策产品和服务的方式对外提供数据解决方案EB 级总数据量PB 级日净增数据量万级集群规模十万级日作业量万级日活跃用户数关键指标组
2、织阵型目录3.快手数据质量平台2.快手元数据平台4.快手数据资产管治1.快手数据治理5.未来规划快手数据治理快手数据治理快手一站式数据开发与治理平台01快手数据治理数据治理:对数据资产管理行使权利和控制的活动集合(规划、监控和执行)数据治理数据建模与设计数据存储与操作数据安全管理数据集成与互操作文件与内容管理主数据与参考数据管理数据仓库与商业智能元数据管理数据质量管理数据架构DAMA-DMBOK2 数据管理框架数据治理数据管理数据管控数据治理、管理、管控关系机制组织保障数据文化流程规范度量体系质量效率成本安全事前事中事后模型设计开发/测试发布上线模型规范指标规范SQL规范测试规范评审规范Che
3、cklist质量监控安全保障智能运维准确性监控及时性监控大数据认证大数据鉴权智能诊断智能归因安全审计访问审计数据脱敏治理提升治理规则治理指标价值评估价值模型价值提升元数据数据血缘综合分指标定义使用日志.快手一站式数据开发与治理平台生产组织管理与资源管理数据采集数据同步数据开发数据开发数据质量数据地图资产管治数据安全数据安全数据服务binlog 采集客户端日志采集服务端日志采集全量/增量同步实时/离线同步一致性保障离线开发实时开发任务调度智能 IDE任务运维监控告警API 构建API 管理API 商城元数据平台元数据采集元数据存储实例血缘数据质量异构数据监控同步/异步阻断固定/动态规则基线监控链
4、路诊断优先级体系资产治理治理工作台治理榜单治理场景权限中心安全审计安全治理搜索商业化电商直播游戏海外数据管治数据开发数据产品业务生产管控数据检索全链路血缘资产管理资产大盘资产清单资产分析快手元数据平台整体架构全链路元数据构建02全链路元数据查询调度实例血缘元数据平台业务复杂30+实体类型5 种实体关系规模巨大亿级实体数量亿级实体关系日变更千万级应用多样支撑 20+业务多种服务形态接入同步接入异步接入解析SQL解析配置解析加工衍生实体衍生关系产出数据存储消息总线存储挖掘自动分级资产价值稽查系统一致性准确性及时性覆盖度ESJanusGraphMySQL接口服务消息服务数仓服务服务数据地图血缘分析资
5、产管理成本账单数据治理统一接入统一存储统一服务应用数据采集数据全链路数据同步数据加工数据服务数据应用业务系统元数据采集元数据应用元数据平台-全链路元数据构建生产任务生产任务生产任务表表列列列列列数据库数据库产出任务依赖任务依赖产出数据依赖数据依赖库表关系库表关系表列关系表列关系列-列关系列-列关系列-列关系变更任务生命周期事件平台生产关系上报血缘解析输入输出关系字段级别依赖关联关系存储血缘服务数据血缘生产任务关系任务血缘全量上下游.存储类型:实体、属性、关系性能:多级存储,低延迟构建事件、全量更新定期全量修复,血缘变更前后自动归因元数据平台-全链路元数据查询场景简单同步查询:如血缘关系逐层预览
6、多维异步分析:如复杂条件上下游影响分析挑战规模大:单实体 1000+直接下游,10W+全部下游层级深:最大深度 50+方案能力:简单同步查询、多维异步分析(任意条件、任意层级查询)优化:BFS、剪枝JanusGraph血缘服务Task WorkerTask Coordinator.Task Worker.数据地图影响分析数据治理BFS 遍历图BFS 遍历图同步查询异步查询元数据平台-调度实例血缘调度实例血缘:任务调度系统的任务实例的调度依赖关系用途:数据异常修复、任务进度预测挑战:实例多:任务实例数每日百万级,三年实例10亿+,依赖关系几十亿更新难:依赖关系变更需更新三年的血缘daily_ta