《基于DataOps构建数据生产流水线 -20230405.pdf》由会员分享,可在线阅读,更多相关《基于DataOps构建数据生产流水线 -20230405.pdf(35页珍藏版)》请在三个皮匠报告上搜索。
1、基于DataOps构建数据产流线易数帆 数据产品专家 徐华1、DataOps相关介绍 2、易数据概述 3、为什么需要DataOps流线 4、流线的六个环节详解 5、两条流线的探索AgendaDataOps背景介绍DataOps解决的问题1、DataOps相关介绍 2、易数据概述 3、为什么需要DataOps流线 4、流线的六个环节详解 5、两条流线的探索Agenda易数据的发展历史2006分布式数据库、分布式件系统、分布式搜索引擎,三驾撑了易互联2.0时代的产品2009开始基于Hadoop做数据分析以及运维2014数据平台猛犸、易有数上线,加速了数据规模化应2017易数据正式对外商业化2018
2、易严选、考拉、乐、新闻等业务相继开始数据中台构建,易发布“全链路数据中台”解决案2020易提出“数据产”理念,倡导“数据、时时数据”2022易发布数据治理和数据开发体化“数据治理 2.0”解决案数据资产中数据集成数据开发数据测试任务运维数据标准数据元数据字典标准发布数据分类元数据管理元数据采集元数据注册元数据扫描元数据发布数据质量稽核监控质量报告强弱规则质量单数据脱敏安全等级敏感识别权限申请数据安全原/派指标系统模型设计中版本管理指标字典指标关联维度建模量化评估规范设计发布审核价值分析成本分析量化ROI数据下线数据户有数BI可视化报表智能决策驾驶舱API发布数据服务服务权限服务编排服务监控数据
3、录数据检索资产户数据缘数据地图基于DataOps 全命周期数据开发数据计算、存储引擎HDFS/S3Arctic(实时数据湖)Yarn/K8s动化运维管理活动管理CDP群圈选渠道触达活动分析易数据产品矩阵助取数数据准备移动端数据屏数据填报复杂报表机器学习交互式建模在线推理可视化建模训练任务sparkhiveImpalaflink易数据的客户华泰证券华福证券上消费江苏农信好未来海亮教育南报中七院记忆科技昆钢温集团九州通福建电绿瘦中国能建投南钢浙交规浙江移动东北证券发证券证券杭州联合银泰康资产湖地产美素佳宁钢中国电信维通地上铁杭州银华夏银国新证券Agenda1、DataOps背景介绍 2、易数据概述
4、 3、为什么需要DataOps流线 4、流线的六个环节详解 5、两条流线的探索淋淋的教训 在某电商业务中,业务三单有礼,因为上游任务变更,导致下游涉及资损数据计算异常,造成P1级别30W产事故。在某电商业务中,由于订单标签任务依赖配置缺失,导致下游任务空跑造成数据异常,给客发了红包,造成P1级别 20W的资损。数据开发任务变更导致的产环境数据问题占达到65%!为什么会出现这些问题?任务依赖复杂,某客户有9540个任务依赖上游,下游任务有17层任务依赖,数据开发在变更任务的时候,根本不知道下游涉及的影响。任务变更缺少数据测试,因为缺少动化具的撑,导致很多任务,未经过严格的数据测试,甚有16%的任
5、务都未运过,就提交上线,最终导致产事故发。缺少全链路影响分析缺少动化数据测试任务的发布缺少发布审核,涉及核资产的任务变更缺少管控。任务发布上线更改随意,没有经过发布审核,Code Review相关环节,甚核任务变更,相关负责都不知道。缺少发布管控任务依赖容易缺失,任务依赖配置复杂,很容易造成缺失,任务空跑,最终下游数据出错。任务依赖容易缺失DataOps敏捷、质量数据平台的DataOpsDataOps是种将软件程CI/CD的法融数据开发的流程,基于动化的数据测试、任务发布等技术,构建数据发布流线,使得数据开发效率更、交付更加频繁,交付质量更有保障。DataOps要解决的问题:研发过程中需求频繁
6、变化,如何确保数据的质量阶段性成果能够更快速地被验证通过引数据测试,将质量保障前置获得了Gartner分析师(Julian Sun)认可,被Gartner评为数据中台标杆供应商数据发布流线编码测试编排代码审查发布审核部署上线数据开发IDE多版本管理(含调度)代码扫描UDF Studio数据沙箱依赖调度智能任务依赖推荐参数组数据对数据形态探查代码对诊断报告审批动化定义审核流程动化回归基于优先级资源调度智能诊断资源组效能具DataOps基线预警流程协作Continuous IntegrationContinuous DeliveryContinuous Deployment冻结池、加速器代码扫描结