《网易基于DataOps的敏捷、高质量数据开发实践-郭忆.pdf》由会员分享,可在线阅读,更多相关《网易基于DataOps的敏捷、高质量数据开发实践-郭忆.pdf(32页珍藏版)》请在三个皮匠报告上搜索。
1、网易基于网易基于DataOpsDataOps的开发治理一体化实践的开发治理一体化实践郭忆|网易大数据 EasyData 产品技术负责人 网易数帆 数据开发与管理平台 EasyData 产品负责人 研究生毕业于天津大学,计算机应用专业 加入网易12年,一直从事数据相关系统设计和研发 构建了网易数据中台支撑技术体系,支撑了网易云音乐、严选、传媒、有道的数据中台项目建设 多次受邀在全球互联网架构大会(GIAC)、全球开发者大会(QCon)、中国数据库大会(DTCC)、系统架构师大会(SACC)分享大数据建设实践经验 极客时间专栏数据中台实战课作者,订阅量超过21000+郭忆 DataOps 2.0:
2、开发治理一体化实践 DataOps 1.0:敏捷、高质量开发实践 DataOps 行业实践Agenda 网易数帆网易杭州研究院网易数帆华夏银行华夏银行音乐电商教育传媒办公邮箱物流农业零售金融教育电力公共技术研发前瞻技术研究创新产品孵化工具产品平台公共数据建设数据建设方法论制造医药记忆科技记忆科技网易数据生产力的实践历程2006分布式数据库、分布式文件系统、分布式搜索引擎,三驾马车支撑了网易互联网2.0时代的产品2009开始基于Hadoop做数据分析以及运维2014大数据平台上线,加速了大数据规模化应用2017网易大数据正式对外商业化2018网易严选、音乐、有道、新闻等业务相继开始数据中台构建,
3、网易发布“全链路数据中台”解决方案2020网易实践“DataOps”,加速数据分析效率,提升数据开发质量2022网易发布 开发治理一体化“数据治理 2.0”解决方案数据生产力数据生产力:广义上:通过使用数据带来组织生产力提升。狭义上:企业员工使用平台工具采集数据、处理数据,数据分析以及管理数据的能力。一个愿景:人人用数据,时时用数据三个方法论:DataOps、DataFusion、DataProduct数据资产中心数据集成数据开发数据测试任务运维数据标准数据元数据字典标准发布数据分类元数据管理元数据采集元数据注册元数据扫描元数据发布数据质量稽核监控质量报告强弱规则质量工单数据脱敏安全等级敏感识
4、别权限申请数据安全原子/派生指标系统模型设计中心版本管理指标字典指标关联维度建模量化评估规范设计发布审核价值分析成本分析量化ROI数据下线数据门户有数BI可视化报表智能决策驾驶舱API发布数据服务服务权限服务编排服务监控数据目录数据检索资产门户数据血缘数据地图基于DataOps 全生命周期数据开发NDHHDFS/S3Arctic(实时数据湖)Yarn/K8s自动化运维管理活动管理CDP人群圈选渠道触达活动分析产品矩阵自助取数数据准备移动端数据大屏数据填报复杂报表机器学习交互式建模在线推理可视化建模训练任务sparkhiveImpalaflink他们都在用网易大数据华泰证券华泰证券华福证券华福证
5、券华夏银行华夏银行马上消费马上消费好未来好未来南方日报南方日报记忆科技记忆科技温氏集团温氏集团九州通九州通福建电力福建电力绿瘦绿瘦中国能建投中国能建投浙交规浙交规浙江移动浙江移动浙商银行浙商银行东北证券东北证券广发证券广发证券民生证券民生证券杭州联合银行杭州联合银行泰康资产泰康资产比心比心浙江电信浙江电信科沃斯科沃斯浙江机电浙江机电浙江日报浙江日报长安汽车长安汽车广汽汽车广汽汽车华存华存华夏银行华夏银行国新证券国新证券天风证券天风证券恒丰银行恒丰银行杭州银行杭州银行台州银行台州银行渣打银行渣打银行北京银行北京银行南京大数据南京大数据五菱汽车五菱汽车吉利汽车吉利汽车路特斯汽车路特斯汽车江苏农信江
6、苏农信 DataOps 2.0:开发治理一体化实践 DataOps 1.0:敏捷、高质量开发实践 DataOps 行业实践Agenda 网易数帆DataOps:血淋淋的教训 在某电商业务中,业务三单有礼,因为上游任务变更,导致下游涉及资损数据计算异常,造成P1级别30W生产事故。在某电商业务中,由于订单标签任务依赖配置缺失,导致下游任务空跑造成数据异常,给老客发了红包,造成P1级别 20W的资损。数据开发65%数据问题数据开发任务变更导致的生产环境数据问题占比达到65%!按期交付按期交付延期交付延期交付按期交付率按期交付率30%的需求交付延期DataOps:为什么会出现这些问题?任务依赖复杂,
7、严选有95409540个任务依赖上游,下游任务有1717层任务依赖,数据开发在变更任务的时候,根本不知道下游涉及的影响。任务变更缺少数据测试,因为缺少自动化工具的支撑,导致很多任务,未经过严格的数据测试,甚至有16%16%的任务都未运行过,就提交上线,最终导致生产事故发生。缺少全链路影响分析缺少全链路影响分析缺少自动化数据测试缺少自动化数据测试任务的发布缺少发布审核,涉及核心资产的任务变更缺少管控。任务发布上线更改随意,没有经过发布审核,Code Review相关环节,甚至核心任务变更,相关负责人都不知道。缺少发布管控缺少发布管控任务依赖容易缺失,任务依赖配置复杂,很容易造成缺失,任务空跑,最
8、终下游数据出错。任务依赖容易缺失任务依赖容易缺失DataOps敏捷、质量DataOpsDataOps是一种将软件工程CI/CD的方法融入数据开发的流程,基于自动化的数据测试、任务发布等技术,构建数据发布流水线,使得数据开发效率更高、交付更加频繁,交付质量更有保障。DataOps要解决的问题:研发过程中需求频繁变化阶段性成果能够更快速的被验证通过引入数据测试,将质量保障前置DataOps:数据发布流水线编码测试编排代码审查发布审核部署上线数据开发IDE多版本管理(含调度)SQL ScanUDF Studio数据沙箱依赖调度智能任务依赖推荐参数组数据比对数据形态探查Code Reivew发布包全链
9、路影响分析自定义审核流程自动化回归任务模板(组件库)基于优先级资源调度智能诊断资源组效能工具DataOpsDataOps基线预警流程协作Continuous IntegrationContinuous IntegrationContinuous DeliveryContinuous DeliveryContinuous DeploymentContinuous DeploymentSLA多环境一键发布数据沙箱开发平台调度集群Yarn_DevYarnHDFSHDFS_DevMetaStore(共享元数据)开发模式生产模式生产、测试物理集群隔离,互不影响开发集群任务直接引用生产集群脱敏数据测试,不
10、需要导数据开发集群无法写入生产集群数据,避免生产集群数据被污染开发集群和生产集群,一套代码,直接运行,不需要发布修改代码数据形态探查值域枚举值分布空置比例重复情况最大长度/最小长度数据比对全量/抽样主键关联/MD5关联数据测试SQL 静态扫描跨层依赖:dws/ads/dm 直接读取 ods 层表全表扫,不带分区使用固定分区对明细表 lateral view explode关联 Key 应该至少是一个表的唯一键,避免笛卡尔积避免使用 distinct,使用 group by 改写避免出现多个 full join,full join 可以用 union all 优化注意关联 Key 在关联各表内的
11、分布情况,典型的情况是空值或者0值,避免数据倾斜自定义规则扩展未使用压缩禁止 select*临时表任务结束未删除SQL Scan DataOps 2.0:开发治理一体化实践 DataOps 1.0:敏捷、高质量开发实践 DataOps 行业实践Agenda 网易数帆数据消费依然存在问题 数据开发自行开发所需数据表,公共逻辑未沉淀,重复建设多 近义指标膨胀现象现象 传统建模为了满足业务快速交付,开发流程约束收效甚微原因分析原因分析 37%的表存在命名不规范问题 相同的字段,有8种以上的字段命名 没有定义数据的安全规范,数据分级分类无法得到实施现象现象 缺乏标准,建模随意原因分析原因分析 数据质量
12、稽核规则覆盖率只有10%70%的相同数据项,稽核规则和/或阈值设置不一致现象现象 质量稽核规则没有配置依据,依赖人员对数据的理解程度原因分析原因分析烟囱式数据架构烟囱式数据架构质量规则覆盖不佳质量规则覆盖不佳规范缺失规范缺失数据开发与治理一体化将数据治理的流程自然融入数据开发的全生命周期过程中,在数据开发的过程中就完成数据治理将数据治理的流程自然融入数据开发的全生命周期过程中,在数据开发的过程中就完成数据治理数据标准指标设计模型设计离线开发数据传输数据测试元模型、词根数据元、数据字典资源分类引入或设计业务指标原子指标衍生指标复合指标维度事实模型关系设计阶段开发测试表命名、分层分类字段类型映射规
13、范(快速建表)数据处理规范(字段映射、按格式处理)稽核规则定义稽核规则推荐自助分析数据安全规则任务发布上线安全中心数据质量治理套件开发套件发布审核传输过程静态脱敏临时查询动态脱敏资产等级日常监控数据质量监控字段类型、分类、数据格式规范质量规则数据测试报告安全等级安全规则先设计,后开发,先标准,后建模开发治理一体化:以数据标准为根本开发治理一体化:以数据标准为根本需求数据抽取数据探查数据建模数据开发数据质量任务发布持续运维数据标准数据安全通过数据元承载格式及值域规范并自动生成稽核规则数据建模直接应用数据标准中数据元和元模型数据标准打通各模块的方式数据标准打通各模块的方式根据表绑定的数据标准所关联
14、的稽核规则,自动添加到表的稽核监控根据表绑定的数据标准所关联的安全规则,自动应用到数据脱敏任务数据标准设计内容数据标准设计内容命名规范数据标准数据标准格式规范值域规范质量规范安全规范开发治理一体化:以全生命周期元数据为底座开发治理一体化:以全生命周期元数据为底座全生命周期的元数据接受了来自设计、开发、消费过程中的所有元数据,让元数据更加完备,形成数据资产数据抽取数据探查数据建模数据开发数据质量数据服务数据安全数据标准统一元数据找得到看得懂信得过管得了数据资产数据生命周期开发过程元数据设计过程元数据消费过程元数据关联的标准需求满足率资产活跃度用户评价模型定义安全等级血缘物理表定义质量报告一步到位
15、,长效解决一步到位,长效解决 随着需求增多,口径不统一越严重先污染后治理先污染后治理 缺统一衡量标准,价值难以度量 无持续优化机制运动式治理运动式治理一体化模式一体化模式传统治理模式传统治理模式两 种 治 理 模 式 的 对 比两 种 治 理 模 式 的 对 比规范规范 先标准后建模,确保了表、字段、指标命名的一致性及规范性 字段标准化率达到 80%80%,字段及指标的安全等级已完成 100%100%设置开发治理一体化:网易落地成果开发治理一体化:网易落地成果效率效率 先设计后开发极大程度保证了公共层逻辑下沉 相同需求对应指标数量缩减 48.7%48.7%云音乐模型复用度从2.4%提升到 9.
16、6%9.6%,下线 3.4W 3.4W 个模型质量质量 自动根据数据标准生成质量稽核规则 规则覆盖率达到 65%65%,单个任务的配置效率提升约 70%70%严选质量覆盖率提升 100%100%科学的评估体系:构建资产健康分,让治理价值可量化完善的工具平台:数据标准产品化持续的数据运营:组织流程打通,数据文化建设关注数据消费,成果可衡量,治理可改进开发治理一体化,保障数据流水线高质量运行先设计,后开发,先标准,后建模三个核心原则三个核心原则三大落地支撑三大落地支撑开发治理一体化:给管理者的建议开发治理一体化:给管理者的建议数据文化 DataOps 2.0:开发治理一体化实践 DataOps 1
17、.0:敏捷、高质量开发实践 DataOps 行业实践Agenda 网易数帆浙江电信调度工具开发工具数据血缘质量管理主数据管理元数据管理亚信思特奇鸿程国信其他多厂家、工具割裂多厂家、工具割裂鸿程思特奇国信亚信分公司其他MPP调度上传集团BSS数据智慧人力业务稽核万号数据数据标签精准营销MSS数据政企应用星级维系资产落地本地应用网络数据网管采集在引入网易一站式工具平台前面临问题:数据标准、数据质量与数据开发严重脱节,规范只能停留在字典层面,无法融入数据生产的流程中,不能有效的落地执行和监督。不同厂商,不同工具之间严重割裂,数据质量的稽核规则无法和数据标准中数据元的值域约束打通,数据标准中数据元无法
18、跟数据建模工具无法联动,元数据管理中的数据安全等级和安全中心的数据脱敏无法联动。由数据中台统一为仓库、经分、网络集群提供数据采集、建模、开发、调度、治理等一体化能力由数据中台统一为仓库、经分、网络集群提供数据采集、建模、开发、调度、治理等一体化能力。在生产过程中对于程序上下线,建表等操作实现在线化,流程化操作一方面减少人工提升效率,一方面完善数据管控的过程。模型设计与开发程序开发程序测试审核上线1-1-模型定义创建模型基础信息定义模型的元数据2-2-构建表结构添加模型字段信息提供手工/批量方式3-3-编辑模型应用程序固化常用程序命令,拖拽式使用图形化界面,自由配置处理逻辑4-4-数据在线测试提
19、供WEB界面可视化测试功能;查看执行时长、执行状态等信息,方便开发人员调试,性能分析5-5-提交审核开发人员建立上线任务,提交审核6-6-上线运行运维人员审核通过,上线运行在上线时按照标准规范进行控制,包括命名规范,信息完整在上线时按照标准规范进行控制,包括命名规范,信息完整性,合理性等,不符合标准规范则不予上线性,合理性等,不符合标准规范则不予上线将数据开发与数据治理有机结合起来数据开发与数据治理有机结合起来,既是对开发过程的管控,也是保障数据质量的有效方法。标标准准规规范范执执行行生生产产流流程程管管控控流流程程数据开发与治理一体化数据中台已有用户数数据中台已有用户数270+270+人,已
20、迁移上线作业数人,已迁移上线作业数8000+8000+个,数据质量稽核数个,数据质量稽核数100+100+个,自助分析累计个,自助分析累计60000+60000+次,次,已导入元数据模型数已导入元数据模型数1500+1500+套,具备作业调度和元数据统一管控能力。套,具备作业调度和元数据统一管控能力。开发治理一体化:某券商落地成果开发治理一体化:某券商落地成果标准:标准:公司内数据孤岛现象严重,阻碍数据内部共享质量:质量:数据质量难以及时满足业务预期,无法助力数据挖掘产生价值安全:安全:难以兼顾数据流通和数据安全的平衡三大痛点三大痛点组织架构:组织架构:结合企业组织架构及人员配置落实数据治理工
21、作、权责分担机制业务流程:业务流程:针对存量数据、新增数据制定不同的治理流程,并做到仓内仓外元数据统一管理产品工具:产品工具:将整个数据治理流程贯穿于各个子产品模块中,打造开发与治理一体化的数据中台重要举措重要举措数据标准管理:数据标准管理:基础数据标准179个,指标数据72个,搭建统一的公共字典合计7个词根新增159个,制定两套数据标准分类方案。数据质量管理:数据质量管理:累计沉淀400余项数据质量规则。数据安全管理:数据安全管理:基于数据分级分类的数据服务审批流程上线,基于脱敏数据在开发环境进行开发和任务发布的研发流程打通。落地成果(截至落地成果(截至20222022年)年)治理目标:治理目标:数据资产化、数据价值化、数据智能化ThankThank YouYou