《4-2 网易数帆在 DataOps 上的实践.pdf》由会员分享,可在线阅读,更多相关《4-2 网易数帆在 DataOps 上的实践.pdf(38页珍藏版)》请在三个皮匠报告上搜索。
1、网易数帆在DATAOPS上的实践李卓豪|网易数帆 有数据研发产品技术负责人|01网易有数网易有数03实践效果实践效果目录目录CONTENT|02网易如何实践网易如何实践DataOps网易有数网易有数01|?2006分布式数据库、分布式文件系统、分布式搜索引擎,三驾马车支撑了网易互联网2.0时代的产品2009开始基于Hadoop做数据分析以及运维2014大数据平台猛犸、网易有数上线,加速了大数据规模化应用2017网易大数据正式对外商业化2018网易严选、考拉、音乐、新闻等业务相继开始数据中台构建,网易发布“全链路数据中台”解决方案2020网易提出“数据生产力”理念,倡导“人人用数据、实时用数据”
2、2022网易发布数据治理和数据开发一体化“数据治理2.0”解决方案我们是一个基础软件提供商我们支持跨云的战略未来的大数据软件市场一定是分层的软件市场?数据平台的发展阶段|手动档1.集群脚本部署维护2.crontab调度任务自动挡1.cdh/hdp部署管理集群2.oozie等开源工具调度数开平台1.cdh/hdp部署管理集群2.自研开发平台数据中台1.跨云、湖仓一体2.DataOps未来数据栈典型问题|.效率低数据开发效率低任务管理难.规范差烟囱式开发指标口径混乱运维难数据问题链路长线上数据被污染有数DataOps|价值文化开发、测试、运维一体产品、开发、运营、分析师数据科学家工具容器、K8s、
3、微服务、gitFlow数据中台产品体系目标持续集成敏捷交付人人用数据时使用数据DevOpsDataOps自动化价值生效团队协作|数据资产中心数据集成数据开发数据测试任务运维数据标准数据元数据字典标准发布数据分类元数据管理元数据采集元数据注册元数据扫描元数据发布数据质量稽核监控质量报告强弱规则质量工单数据脱敏安全等级敏感识别权限申请数据安全原子/派生指标系统模型设计中心版本管理指标字典指标关联维度建模量化评估规范设计发布审核价值分析成本分析量化ROI数据下线数据门户有数BI可视化报表智能决策驾驶舱API发布数据服务服务权限服务编排服务监控数据目录数据检索资产门户数据血缘数据地图基于DataOps
4、 全生命周期数据开发NDHHDFS/S3Arctic(实时数据湖)Yarn/K8s自动化运维管理活动管理CDP人群圈选渠道触达活动分析自助取数数据准备移动端数据大屏数据填报复杂报表机器学习交互式建模在线推理可视化建模训练任务SparkHiveImpalaFlink网易数帆有数产品矩阵企业目标愿景|信息化系统取代线下流程数据+算法取代拍脑袋决策在线化数智化数据生产力:通过使用数据带来组织生产力的提升愿景:人人用数据,时时用数据DataOps(数据研发)DataFusion(数据治理)DataProduct(数据产品)02|网易如何实践网易如何实践DataOps总体技术架构|底层集群:物理资源集群
5、管理层:提供集群相关的管理能力。平台基础层:对接集群屏蔽底层细节,给上层提供标准接口,实现跨版本、套件能力。同时提供平台基础能力。数据开发:数据研发产品,DataOps数据治理:数据治理产品,DataFusion数据应用:数据价值快速生效产品。组织实体概念|租户租户成本中心,所有的资源,都应该在租户层面统一管理,可以清晰的看到资源架构隔离的基本单元,不同的租户之间,必须是资源隔离的,不存在任何资源共享或者任务依赖的问题集群集群资源包,不仅仅是Hadoop,也可以包含K8S等云原生资源。至多一个HMS。支持多种场景的资源组合:多Spark版本、多HS、多HDFS(Router、Federatio
6、n)。项目组项目组共享同一个公共层数据的业务线。元数据全部是打通,包括数据地图、指标系统、模型设计中心都是项目组粒度的项目项目工作空间的概念,工作空间对应的是一个部门或者一个团队。项目,管理的是人、角色、权限和任务。账号管理|项目账号角色账号个人账号系统账号AACKDCRanger数据源账号LDAPKeytab生成组织关系账号信息系统账号生成权限预制HDFS数据源账号映射账号目录创建权限管理|Access-CoreRangerRanger-PluginMuskUDF账号同步权限设置权限同步HDFS鉴权Hive鉴权元数据变更通知级联授权Owner语义动态脱敏静态脱敏自定义脱敏功能权限角色管理权限