1、网易基于DataOps的数据中台实践主讲人:傅正演讲嘉宾介绍傅正网易数帆大数据产品架构师 8年ICT、互联网领域从业经验,长期参与从事产品的设计、推广、运营等相关工作 在大数据产品方面有较丰富的经验,专注于BI、数据开发、数据治理等领域,主要负责指导网易数帆大数据产品功能设计、商业化推广及交付、产品功能客户场景落地CONTENT目录2023K+01网易大数据概述DataOps 1.0:敏捷、高质量开发实践DataOps 2.0:开发治理一体化实践0203DataOps 行业实践04Part 01网易大数据概述网易大数据发展史支撑网易多级数据中台架构任务规模 20W+,DAU 2000+行业头部
2、客户大规模应用金融、制造、流通、国央企2006离线大数据平台DDB、DFS、NEMR有数BI实时计算平台数据中台全链路数据生产力平台DataOps数据治理2.0引入开源Hadoop2014201620182020202220152009工具平台+方法论数据生产力模型数据生产力一个愿景三个方法论广义上:通过使用数据带来组织生产力提升。狭义上:企业员工使用平台工具采集数据、处理数据,数据分析以及管理数据的能力。人人用数据,时时用数据DataOps、DataFusion、DataProduct网易数帆大数据产品矩阵数据资产中心数据集成数据开发数据测试任务运维数据标准数据元数据字典标准发布数据分类元数
3、据管理元数据采集元数据注册元数据扫描元数据发布数据质量稽核监控质量报告强弱规则质量工单数据脱敏安全等级敏感识别权限申请数据安全原子/派生指标系统模型设计中心版本管理指标字典指标关联维度建模量化评估规范设计发布审核价值分析成本分析量化ROI数据下线数据门户有数BI可视化报表智能决策驾驶舱API发布数据服务服务权限服务编排服务监控数据目录数据检索资产门户数据血缘数据地图基于DataOps 全生命周期数据开发大数据基础平台NDHHDFS/S3Arctic(实时数据湖)YARN/Kubernetes自动化运维管理活动管理CDP人群圈选渠道触达活动分析自助取数数据准备移动端数据大屏数据填报复杂报表机器学
4、习交互式建模在线推理可视化建模训练任务SparkHiveImpalaFlinkPart 02DataOps 1.0:敏捷、高质量开发实践前DataOps时期:单次数十万资损的教训电商业务三单有礼:上游任务变更,导致下游涉及资损数据计算异常,造成 P1级别30W 生产事故。电商业务新人奖励:订单标签任务依赖配置缺失,导致下游任务空跑引发数据异常,误给老客发红包,造成 P1级别 20W 的资损。任务依赖人肉配置,漏配、错配频发,导致下游数据出错。16%的任务未运行过就提交上线,最终导致生产事故发生。任务发布上线更改随意,未经审核和Code Review。任务依赖容易缺失缺少自动化测试缺少发布管控W
5、hy?资损事故多次发生DataOpsDevOpsDataOps是一种敏捷的数据开发模式,将软件工程CI/CD的方法融入数据开发的流程,基于自动化的数据测试、任务发布等技术,构建数据发布流水线,使数据开发效率更高、交付周期更短、交付质量更有保障。研发过程中需求频繁变化阶段性成果能够更快速的被验证通过引入数据测试,将质量保障前置What?What for?网易DataOps1.0:数据发布流水线编码测试编排代码审查发布审核部署上线 数据开发IDE 多版本管理(含调度)SQL Scan UDF Studio 数据沙箱 依赖调度 智能任务依赖推荐 参数组 数据比对 数据形态探查 Code Reivew
6、 发布包 全链路影响分析 自定义审核流程 自动化回归 任务模板(组件库)基于优先级资源调度 智能诊断 资源组效能工具DataOps 基线预警Continuous IntegrationContinuous DeliveryContinuous Deployment SLA发布管控+自动化测试+依赖配置+环节一:编码场景新任务开发、老任务修改、代码编辑、任务回滚等需求快速定位目录、快速定位任务、优秀的IDE、任务比对、一键回滚DataOps能力目录、任务、代码等搜索定位自动联想、错误提醒、语法高亮、代码折叠、代码扫描、代码分享等多版本管理环节二:编排场景依赖调度、构建任务依赖DAG等DataOp