《华为:2023华为终端云DataOps实践白皮书(43页).pdf》由会员分享,可在线阅读,更多相关《华为:2023华为终端云DataOps实践白皮书(43页).pdf(43页珍藏版)》请在三个皮匠报告上搜索。
1、编写说明编写单位:华为终端云、华为云编写组成员华为终端云梅 岩,余 斌,陈 梁,林啸鸣,刘 珩,陆松超,薄宏剑,丁凯平,郭贺飞,金雪松,孙建楠,项登荣,章其东,朱佳伟华为云柏效意,喻然,秦韵,袁勇PREFACE数字经济步入全面发展阶段,大数据技术在各行业中被广泛应用,企业生产、营销、运营等各环节中大数据都发挥重要的作用与价值,但数据应用开发需求的持续增长、与数据用户角色的日益复杂,致使企业数据开发、数据运维工作量以及数据应用交付协调难度大大增加,海量数据的爆发式增长给数据价值挖掘带来了一系列的挑战。DataOps作为一种新兴的数据处理与管理方法,强调数据驱动自动化,既能为数据工作者提供敏捷的数
2、据开发支持,同时也简化了数据交付的周期,提升数据生产者与数据消费者的协同效率,成为企业数字化转型快速释放数据生产力的最佳方案。在此背景下,华为云联合华为终端云撰写本白皮书,从行业发展背景、数据文化转变、构建端到端流程体系和工程能力解决方案等方面,详细阐述华为终端云DataOps平台在数据合规、安全、高效、自治的实践过程,及如何使能数据实体间的高效合规共享和快速交付,以支撑华为终端云业务数据的快速价值变现。前言01 背景 1(一)行业背景 1(二)终端云DataOps演进历程 102 DataOps关键技术及行业趋势 2(一)核心概念 2(二)关键技术 3(三)行业趋势 503 华为终端云Dat
3、aOps目标 6(一)数据作业合规 6(二)数据共享安全 6(三)协同交付高效 6(四)数据资产可治理与自治理 704 华为终端云DataOps组织与流程 8(一)业务场景 8(二)理念统一 9(三)流程设计 10(四)组织设计 11(五)DataOps实践七步法 1205 华为终端云DataOps能力框架 13(一)架构 13(二)数据接入 14(三)数据生产 17(四)数据调度与运行 18(五)数据治理 20(六)数据运维 28(七)开放平台 3006 未来展望 3207 华为终端云实践案例 33(一)基于DataOps实现数据高效接入&AI实时推荐实践 33(二)DataOps Pipe
4、line数据开发与运维实践 34(三)元数据管理(数据实体&信息架构树)实践 35(四)声明式数据接入管理实践 36(五)数据安全(分类分级)管理实践 37(六)数据质量评测体系实践 38contents目录01PAGE背景背景01随着数字化转型的普及和深入,大数据技术在各类行业中普遍落地使用,企业生产、营销、运营等各环节中的数据将普遍被采集,数据应用开发需求增长与数据用户角色的复杂致使企业数据开发、数据运维工作量以及数据应用交付协调难度大大增加。海量数据的爆发式增长给数据价值挖掘带来了一系列的挑战:数据孤岛阻碍数据的共享与统一,数据在各部门间协作困难,单点自动化难以支撑整体效能提升。Data
5、Ops作为一种新兴的数据处理与管理方法,强调数据驱动自动化,既能为数据工作者提供敏捷的数据开发支持,同时也简化了数据交付的周期,提升数据生产者与数据消费者的协同效率,成为企业数字化转型快速释放数据生产力的最佳方案。阶段一(2014-2018年),基础能力建设:华为终端云大数据平台初步构建统一数据湖仓,单集群节点规模500+,初步建立数据安全与共享框架;(一)行业背景(二)终端云 DataOps 演进历程阶段二(2018-2021年),全流程工程能力平台:启动构建全流程工程能力平台,包含在线数据开发平台、数据治理平台、数据运营平台等,单集群节点规模突破1W+。阶段三(2021年至今),“可信、高
6、效、自治”的一站式平台:对齐业界DataOps理念,在组织内倡导“合规、安全、高效、自治”的数据文化,打造涵盖数据开发、运维、治理的端到端流程体系和工程能力平台WiseDataOps。提供“可信、高效、自治”的一站式体验,支撑数据管理员、工程师、分析师等专业角色在可信合规前提下实现数据实体的高效共享和快速交付,实现终端云服务业务数据生产到应用消费的端到端价值。02PAGEDataOps 关键技术及行业趋势DataOps关键技术及行业趋势02(一)核心概念Lenny Liebmann提出DataOps的概念,在3 reasons why DataOps is essential for big
7、data success这篇文章中,Lenny提出DataOps是优化数据科学和运营团队之间协作的一些实践集。2014年2015年2017年2018年截止2022年业界对DataOps定义的解读说法较多,对DataOps的概念理解存在共通之处。各类观点普遍强调数据的价值变现、生产者和消费者的协作、基于敏捷和自动化的持续交付等关键思想。DataOps的数据开发借鉴于DevOps并衍生到数据领域,在敏捷、自动化、迭代、协作等理念上一脉相承。由于数据相比与软件业务的一些典型特征不同,因此在对人员的具体能力要求、交付方式、设计思想和生命周期管理上也存在一定程度上的差异性。Andy Palmer将这个理
8、念发扬光大,提出了DataOps的四个关键构成,数据工程,数据集成,数据安全和数据质量。Nexla的Jarah Euston把DataOps的核心定义为从数据到价值,这是首次把DataOps和业务价值关联起来的定义。Gartner把DataOps纳入到Data Management的技术成熟度曲线,标志着DataOps正式被业界所接纳并推广起来。Gartner Data Management的技术成熟度曲线对DataOps定位仍处于创新阶段。03PAGEDataOps关键技术及行业趋势(二)关键技术数据采集与集成:大数据系统需要解决各类场景下的采集与数据集成问题,如不同数据部署方式(本地部署、
9、云部署、跨云部署等)、多种数据形式(结构化、半结构化、非结构化)、各类型数据(批量式、增量式/流式数据)。DataOps的数据治理还在DAMA、DCMM等传统数据治理的范围和方法基础上进一步增强,将数据建模、元数据管理、数据血缘、数据质量、数据安全与隐私等传统治理要求融入到整个DataOps生命周期,做到开发即可治理。传统数据开发人员要求业务开发人员要掌握多种数据底层技术栈软件开发人员数据大众化,运营人员也能开发数据产品数据团队负责平台能力交付方式一次投入大,周期长,犯错代价高敏捷迭代,DevOps流水线,自动部署软件敏捷迭代,轻量上线,开发人员试错成本低生命周期业务应用发布使用DevOps流
10、程数据发布依靠运维人员手动变更已软件服务为生命周期管理单元以数据为生命周期管理单元数据治理贯穿生命周期设计思想各组件团队独立作战,集成管集成,分析管分析,模型管模型,运维管运维鼓励端到端的设计思想,体现最终价值遵从统一流程鼓励端到端的设计思想,体现数据最终价值数据pipeline标准化DevOpsDataOps以数据为核心以软件/服务为核心DevOps codePlanrelease test build deploy Operate MonitorDataOps Ingestion PlanDeploy Orchestrate Modeling Run Monitor Consume Gov
11、ernance Governance04PAGEDataOps关键技术及行业趋势数据存储:随着结构化数据和非结构化数据数量的不断增长,以及分析数据来源的多样化,之前的存储系统设计已经无法满足大数据应用的需求,存在很多挑战,如容量问题、延迟问题、安全问题、成本问题、高可用诉求、灵活性诉求。为了应对大数据对存储系统的挑战,数据存储领域内在不懈努力提升数据存储系统的能力,主要提升有3个方面:提升系统的存储容量、提升系统的吞吐量、系统的容错性。批流计算:批计算处理的是“固定的”、有界的数据集。数据的导入与计算通常是严格地分成两个阶段,即先将数据导入,再对数据进行计算与处理,一般需要关注高吞吐量。流计算
12、处理的是“不固定的”、无界的数据流。在一些场景下,数据会不停地产生,当数据产生之后要立刻对其进行分析与处理。在这种情况下,数据的导入与计算往往是同时发生的,数据进入计算系统后就要立刻对其进行响应,一般关注的是低延时。业内的一个热点方向就是批流一体,包括计算的批流一体和存储的批流一体,这样可以降低系统维护成本、保障数据质量和一致性,进一步混合调度提高资源使用率。湖仓一体:湖仓一体是一种将数据湖的灵活性和数仓的易用性、规范性、高性能结合起来的新型融合架构,类似于在湖边搭建了很多小仓库,有的负责数据分析,有的运转机器学习,有的用来检索音视频等,数据源流都可以从数据湖里05PAGE(三)行业趋势从业界
13、DataOps Pipeline厂商的实践来看,百花齐放,各有侧重,但都向自动化、可编排、可重复、可持续方向不断演进。在数据工程能力上不同厂商专注于不同领域构建能力,各有所长,有的专注于编排、测试、CI/CD和监控等;有的专注于建模和治理;有的专注于数据分析等。DataOps实践和发展需要分阶段逐步成熟的演进过程,一方面依赖于对业务场景匹配构建DataOps Pipeline等能力的成熟度,一方面也与企业的数据治理水平直接相关。轻松获取。这样就打通了数据仓库和数据湖,将数据仓库的高性能及管理能力与数据湖的灵活性融合了起来,底层支持多种数据类型并存,能实现数据间的相互共享,上层可以通过统一封装的
14、接口进行访问,可同时支持实时查询和分析,为企业进行数据治理带来了更多的便利性。多维分析:多维数据中的维是指人们观察事物的角度,同样的数据从不同的维度进行观察可能会得到不同的结果,同时也使人们更加全面和清楚地认识事物的本质。多维分析可以对多维形式组成的数据进行切片、切块、上卷、下钻、旋转等分析操作,使分析者、决策者能够从多个角度、多个侧面去观察数据、对比数据,从而深入了解包含在数据中的信息和内涵。数据可视化:数据可视化主要旨在借助于图形化手段,清晰有效的传达与沟通信息。但是,这并不意味着数据可视化就一定因为要实现其功能用途而令人感到枯燥乏味,或者是为了看上去绚丽多彩而显得极端复杂。为了有效的传达
15、思想概念,美学形式与功能需要齐头并进,通过直观的传达关键的方面与特征,从而实现对于相当稀疏而又复杂的数据集的深入洞察。数据可视化技术的基本思想,是将数据库中每一个数据项作为单个图元元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。数据血缘:数据血缘是指数据的全生命周期中,数据从产生、处理、加工、融合、流转到最终消亡,数据之间自然形成一种关系。其记录了数据产生的链路关系,这些关系与人类的血缘关系比较相似,所以被成为数据血缘关系。数据血缘分析是元数据管理的重要应用之一,其梳理系统、表、视图、存储过程、ETL、
16、程序代码、字段等之间的关系,并采用图数据库进行可视化展示。DataOps关键技术及行业趋势06PAGE华为终端云DataOps目标华为终端云 DataOps 目标03对齐业界DataOps理念,在组织内倡导“合规、安全、高效、自治”的数据文化,打造涵盖数据开发、运维、治理的端到端流程体系和工程能力平台WiseDataOps。提供“可信、高效、自治”的一站式体验,支撑数据管理员、工程师、分析师等专业角色在可信合规前提下实现数据实体的高效共享和快速交付,实现华为终端云服务业务数据生产到应用消费的端到端价值。(一)数据作业合规作为华为终端云的一站式数据开发治理平台,WiseDataOps平台需要能够
17、实现数据管理流程的IT化并固化最佳实践,面向数据管理员、工程师、分析师等专业角色做到0基础开箱即用,并提供“可信、高效、自治”一站式体验。(二)数据共享安全数据安全、高效共享是DataOps的核心价值,是大数据体系的灵魂。WiseDataOps平台引入“湖外严控、湖内提效”的管控理念,内置数据合规最佳实践规则,让数据使用者享受数据高效共享的同时又不会违反隐私合规的红线。(三)协同交付高效针对华为终端云EB级数据量的数据湖仓系统,进行日常运营、搜索、推广及AI训练的任务是海量的,这就要求WiseDataOps平台构建具备百万级任务在线、秒级任务响应、云原生的调度架构以及万级人员同时在线协同的能力
18、,以支撑华为终端云数十类业务的运营分析人员的同时进行数据开发、分析、治理、运维的诉求。同时需要进一步具备智能调度和智能诊断能力,以提升资源利用率及维护效率。07PAGE华为终端云DataOps目标(四)数据资产可治理与自治理引入数据资产“生养管治”理念,构建面向数据域的资源管控体系,对数据全生命周期进行实时管控,支撑数据管家及管理员自助完成数据的正向治理工作。同时,引入逆向治理概念,作为数据正向治理的补偿措施,解决数据湖仓中各种非标、异常、不规范导致的“数据乱象”,发现数据隐患,进行负向改进闭环。通过AI技术加持,逐步提升自治理程度,让自治提升治理效率与效果。08PAGE华为终端云DataOp
19、s组织与流程华为终端云 DataOps组织与流程04(一)业务场景华为终端云各类消费者业务日常的运营及经营管理过程普遍存在数据应用场景,比如:经营分析报表、用户画像标签、运营自助分析、推荐/广告等业务特性或者经营活动都依赖于高质量的数据、高效率的数据作业,才能高效、精准实现数据价值挖掘与变现。如何提升数据开发和治理端到端效能,高效构建数据模型和数据应用是我们面临的主要课题,这一点和DataOps的理念高度一致。数据应用画像标签推荐模型MLOps Data PrepPlanPackage Verify(Re-)Train DevelopInference Deploy Monitor数据消费用户
20、属性行为偏好兴趣意向设备属性男性 已婚人士 IT/互联网从业者 资产状况有车有房 年龄25-35岁游戏APP活跃 出行APP安装 短视频类APP安装个数 安装多款游戏APP APP卸载时间设备价格 屏幕尺寸 机身颜色 设备品牌旅游爱好者 餐饮美食茶饮爱好者 体育运动爱好者 话剧演出爱好者 购物高消费人群固定报表用于固定维度分析场景,口径调整频率低,且接受35天的开发周期多维自助分析0门槛自助探索,高效实现多样化、定制化、多维度分析场景。日常运营,及时进行分析、决策,配合活动开展等09PAGE华为终端云DataOps组织与流程(二)理念统一DataOps的实践过程第一步需要从业务的数据战略开始,
21、建立数据领导力。因此在引入环节需要与各级业务主管对齐数据战略的业务目标,以及DataOps能带来什么样的收益和促进:及时、高质量的数据更好地帮助了解用户、市场,提升业务决策质量 利用数据改善内部运营,提升内部效率,优化成本结构 将数据的合规应用转化为业务新的收入来源接下来调研围绕数据应用开发和部署场景、数据应用和治理面临的痛点问题,识别主要矛盾,设定DataOps模式下更有效的解决方案。DataOps解决方案需要综合考虑数据协作文化理念对齐、组织设定和角色优化、数据开发与治理流程设计、先进的技术工程实践引入、通用工程工具平台构建等不同层级的落地策略。如下为华为终端云业务的DataOps建设框架
22、示例:数据应用开发与运维价值、共享、高效、合规管理文化组织流程工程实践工具平台全功能团队:产品经理、数据工程师、数据分析师、运维、运营跨功能一体化管理终端业务数据数据开发与治理联合工作组质量标准过程合规数据出湖数据同步数据授予数据提取数据开放传输安全收集安全数据销毁访问控制应急响应存储安全数据跨境数据披露数据质量管理数据共享管理数据安全管理数据资产目录元数据管理数据分类分级生命周期留存数据归属管理主数据管理血缘关系管理数据价值分析数据冷热分析数据需求分析数据巡检监控任务调度数据评测问题反馈数据迁移资源管理数据建模数据集成标签开发与发布部署报表开发与发布部署自助分析模型开发与发布部署数据需求设计
23、数据告警和事件处理数据同步数据接入数据备份与恢复任务开发与编排数据共享申请数据/任务日落数据评估与验证数据发布部署数据应用需求规划数据开发与发布数据应用开发与发布数据运维数据反馈数据治理数据资产管理WiseDataOpsDEDB(统一元数据服务)资源管理服务数据权限服务数据接入服务数据资产服务数据建模服务数据安全服务数据开发服务数据质量服务任务管理与调度服务数据共享服务数据地图服务数据运维服务数据分析服务统一门户领域模型数据分层架构ADS:数据应用层CDMODS:操作数据层离线推送数据实时消息数据DWD:明细宽表层DWS:公共汇总宽表层DIM:一致性维度表日期时间地域设备数据开发与治理数据生产
24、10PAGE华为终端云DataOps组织与流程流程设计上复用DevOps现有的软件工程能力,同时考虑数据作业的差异性。(三)流程设计为了标准化支撑典型数据应用作业,将业界DataOps的理念融入到数据作业流程中,统一语言。华为终端云构建了“管理终端业务数据”作业流程,包含端到端数据生产和消费的作业流,将数据开发与运维、数据治理相关要求内嵌到作业活动中,在合规前提下实现数据的高效共享和数据作业的持续快速交付。数据应用开发与运维(DataOps Pipeline)数据治理(Data Governance)内部数据外部数据设备数据业务上报数据(端/云)爬虫数据采购合作数据(内容)数据价值数据应用需求
25、规划数据开发与发布数据应用开发与发布数据运维数据反馈数据需求分析数据接入自助分析智能调度数据评测数据建模数据同步任务开发与编排数据评估与验证数据发布部署数据集成模型开发与发布部署报表开发与发布部署智能诊断数据迁移数据共享申请问题反馈智能存储数据需求设计标签开发与发布部署数据应用任务监控数据资产管理数据质量管理数据共享管理数据质量标准业务间数据共享环境间数据共享三方数据开放数据资产目录数据分类分级元数据管理血缘关系管理生命周期留存数据冷热分析数据归属管理主数据管理数据价值分析数据治理分数据价值分数据健康分SLA数据过程合规KCPSOD矩阵数据安全管理数据收集安全数据存储安全数据访问控制数据传输安
26、全数据应急响应数据销毁数据跨境数据披露业务系统A大数据平台业务A数据业务B数据公共数据数据出湖数据授予业务系统B 数据同步(不跨境)生产环境A作业环境生产环境B探索环境数据同步(跨境)数据提取数据开放业务系统三方系统促进数据生产者和消费者的协作,通过自动化数据开发和治理,在合规前提下提高数据分析质量并缩短数据及数据应用交付周期数据工程师、数据分析师DataOpsData/Data ApplicationWiseDataOps数据治理资产管理安全隐私共享管理质量管理数据应用需求规划数据开发与发布数据应用开发与发布数据运维数据反馈DevOps消除软件开发与运维的障碍,持续更快地构建部署软件/服务S
27、ervice/APP/SDK软件SDE、SDE-T、SREWiseDevOps持续规划(软件需求)持续开发(编码/测试/CI)持续部署与发布(CD)持续运维持续反馈(AIOps)软件服务基础设施数据资产基础设施目标交付件面向角色作业流成熟建设探索WiseMLOps探索需求分析模型开发训练验证模型部署与发布模型监控调优更新ABTest连接模型构建团队和业务团队,建立标准化的模型开发、部署与运维流程,使组织更好地生产和应用机器学习能力AI与算法工程师MLOpsAI Model11PAGE(四)组织设计传统的数据组织架构与企业数据管理的规模和价值流模式息息相关。通常会形成业务维度或者职能维度(IT系
28、统平台建设方)各自建设的形态,由于数据所有权的不同,带来数据标准统一、互通共享等不同方面的问题。因为数据拉通治理的需求,有的企业也会形成专业的数据管理团队,但数据管理团队由于与业务价值流分开运作,所以往往在协作上面临前期无法干预、后期治理成效不可控等困境。DataOps模式下更倡导以业务为导向的全功能团队设计,从而让效率提升、价值快速交付成果更容易实现。为了拉通DataOps工程能力建设和湖仓数据治理,还需要建立相应的数据治理管理组织和平台支持团队,如下为终端云的数据专业组织设计框架:其中终端业务数据开发与治理联合工作组负责体系建设,拉通安全、隐私、法务等行业组织和各个业务单元,共建数据开发和
29、治理规范、流程和工程能力;数据Owner是数据资产管理的第一责任人,对数据资产的开发与治理承担管理职责;数据管家协助数据Owner管理数据资产,组织领域数据治理工作;全功能团队负责数据及数据应用开发。华为终端云DataOps组织与流程终端业务数据开发与治理联合工作组数据湖管家数据安全管理员数据质量管理员数据平台运营数据合规审核员数据湖运维体系建设协同构建终端云服务统一湖仓,聚焦数据价值协同各业务,做好数据管控,建立统一的数据架构、数据标准,制定相关数据开发、治理规范,提升数据质量围绕DataOps理念,建立DataOps工程能力,实现能力共享对领域DataOps工作持续度量,监控措施执行落地领
30、域治理实施领域端到端数据管理,落实数据架构管控和治理确保本领域数据使用的安全、质量和合规业务执行实施数据应用开发与运维作业,完成从 数据需求到数据应用价值的转换平台支持提供数据流程及平台的相 关支持拉通湖仓的数据治理数据Owner数据架构师法务代表 隐私代表法务代表隐私代表数据域管理员数据域管理员数据管家数据管家产品经理数据运营代表数据接入工程师数据工程师数据分析师AI与算法工程师数据运维工程师业务1全功能团队产品经理数据运营代表数据接入工程师数据工程师数据分析师AI与算法工程师数据运维工程师业务2全功能团队终端业务数据管理专业组织12PAGE华为终端云DataOps组织与流程(五)DataO
31、ps 实践七步法第一步:数据战略和文化对齐围绕企业业务战略,对现有的数据战略、数据架构、流程和团队进行评估,确定企业面临的挑战和需求。基于此,制定数据战略和文化,以确保企业各个部门在数据管理方面的行为和决策与企业数据战略的一致性。这将有助于明确实施DataOps的目标和优先级。第二步:组织设计建立满足DataOps实践的组织架构,包括数据管理、数据开发、数据分析等团队,明确各个团队之间的协作流程和职责划分。同时,制定标准、规范和流程,以确保数据处理和分析流程的安全、高效、高质量。同时,设计业务领域内的安全、质量、合规要求,为数据管理提供必要的保障。第三步:数据角色转型优化设置满足DataOps
32、理念要求的岗位,并明确其岗位职责、考核要求与发展路线。为不同的数据岗位提供必要的培训和技能提升机会,以确保其具备所需的技能和知识,满足企业的数据需求第四步:流程建设建立从数据采集、清洗、处理、分析、交付和维护的完整数据流程,并明确各个流程环节的规则和标准。通过持续优化和改进流程,以确保数据处理的安全性、高效性和准确性。第五步:技术和工程实践堆栈管理明确核心实现技术栈,技术选型。在整体数据研发运营管理生命周期流程中引入适合的自动化工具和技术,以提高研发效率和准确性。应用持续集成(CI)、持续测试(CT)和持续交付(CD)的原则,通过自动化测试和部署,更快地将数据应用于实际业务场景。第六步:构建度
33、量与反馈建立数据质量和性能等维度的数据全链路监控,以便及时发现问题并进行优化。构建度量和反馈体系机制,持续评估数据管理和分析的有效性,并通过反馈循环和迭代,不断改进数据处理流程,提高效率和质量。第七步:持续优化迭代持续评估DataOps实践的有效性,并根据需要进行持续改进。确保DataOps能够适应组织的发展和需求变化。13PAGE华为终端云 DataOps能力框架05华为终端云DataOps能力框架(一)架构终端云湖仓整体流程架构WiseDataOps平台作为终端云数据湖仓管理平台,提供数据入湖、数据存储、数据处理、数据共享、数据出湖等完整场景;支撑业务进行高效便捷的批流数据处理。终端云湖仓
34、运行架构运营报表自助分析画像DMP营销推荐数据应用产品端侧数据源端侧打点采集服务器HASDKFilebeat云侧数据源业务DMQ业务OBSDRSDataPush数据库数据WiseDataOps湖仓服务端日志2端侧接入接入中间件部署12云测接入数据授予34数据开发与运行(含即席)数据集成 56数据出湖自助分析7能力开放98DataPush3DMQNSPDMQ2DMQ1223计算加速计算集群DMQDMQOBSDCSDCSIceBergIceBergHiveOBS5586实时引擎数仓批数据离线引擎4实时数据ClickHouse多维分析标准出湖声明式出湖业务系统OpenAPIGaussDBDCS.DM
35、QNSP779414PAGE华为终端云DataOps能力框架(二)数据接入数据接入通过构建一站式自助数据接入能力&流程IT化,覆盖云侧/端侧、VM/容器、批/流等各组合场景,作为数据源与大数据平台数仓的关键通道,提供标准化、高可靠、高性能、安全合规的数据入湖服务。终端云湖仓数据典型应用华为终端云在WiseDataOps湖仓基础上构建丰富的数据应用,如画像、营销、特征等等;业务可使用这些数据应用能力,或直接使用WiseDataOps湖仓能力处理业务数据。WiseDataOps平台逻辑架构WiseDataOps平台构建涵盖数据开发、数据治理、数据运维的DataOps全流程工程能力平台,提供数据建模
36、、数据接入、数据开发、数据共享、数据分析、元数据管理、数据资产、数据质量、数据可视化等全域的DataOps服务。LakeHouseCBU组件自研组件三方组件WiseDataOpsData PipelineRuntime数据开发数据运维数据治理推荐业务搜索业务广告业务营销风控智能客服AIOps小艺相机.行为分析平台WiseUBA营销平台WiseMarketing画像平台Persona运维分析平台ServiceInsight商业智能WiseBI定位平台Location特征 平台DPPWiseDataOps开放统一门户Data作业台Ops作业台DGP作业台个人工作台系统配置DataOps仪表盘能力开
37、放数据开放事件开放Data Pipeline持续开发持续部署设计建模接入编排部署运行监控消费数据开发数据建模云侧接入端侧接入数据开发数据共享数据分析运行公共数据调度DMDB(统一元数据)数据运行数据治理数据资产数据市场数据质量数据地图数据安全数据运维数据交付数据定位数据BCMRuntimeLakeHouse批计算引擎流计算引擎OLAP引擎DMQDCSMRSOBSLakeFormation15PAGE云侧数据接入:云侧数据接入有如下痛点问题:1、数据接入场景多、技术栈复杂;2、数据传输发生问题较难及时发现,难定位;3、数据涉及隐私合规等问题,需提前识别;为解决上述痛点问题,通过梳理云侧数据接入的
38、主流场景与流程,分析当前瓶颈,构建自助式数据接入的产品能力,统一接入场景,规范接入方案,打造稳定、高效、安全的数据接入服务。云侧数据接入:包括业务侧服务器日志接入、数据库接入、OBS接入、DMQ接入、业务数据湖接入、本地文件上传等六大主流场景的接入能力,主要服务:接入管理服务、数据接入Agent、监控服务;1、接入管理服务:支持源数据的设计、接入、审核能力,离线/实时数据的接入管理能力,并通过调用数据建模接口,一站式构建从数据源到ODS表的能力2、数据接入Agent:运行在业务服务器侧,提供多样化的数据推送/采集能力3、监控服务:实时监控数据接入任务状态,及时告警并进行干预华为终端云DataO
39、ps能力框架业务数据源服务器日志OBS中转桶DataPush批准DataPush批准NSP数据分发DMQ2DMQ本地上传FileBeat流推数据库OBS桶DMQ业务数据湖本地文件数据湖外DRS数据出湖DMQODS表数据湖内FIink流转批NSP2HiveWiseDataOpa平台批接入流接入数据接入管理台数据接入Agent数据推送日志监控服务数据开发告警服务AIOPSDMQAgent运行日志业务节点IF1任务下发IF2监控注册IF3上报推送日志IF4任务状态监控IF6告警上报IF5入库任务调度IF3上报运行日志16PAGE端侧数据接入:端侧数据接入有如下痛点问题:1、数据上报缺少管控能力,业务
40、上报数据较随意,上报的事件&属性的价值密度低,无法管控;2、数据解密解析过程复杂,依赖人工分析并编写脚本处理;3、缺少元数据治理,端侧数据没有作为业务数据资产进行呈现,后期无法治理。为解决上述痛点问题:通过端到端分析端侧数据从设计、上报、接入、落盘、分流、解密、解析、治理全流程,构建端侧事件管控能力,支持事件的设计、审核、上报、解密、解析等能力,满足端侧数据上报的可管可控、隐私合规要求,包含事件管理服务、事件配置下发服务、数据采集配置服务、数据解析服务、数据采集服务、HASA等服务1、事件管理服务:应用、事件注册、审核、日落能力;事件元数据管理能力2、事件配置下发服务:为亿级端侧提供配置分发策
41、略和分发能力3、数据采集配置服务:端侧数据接入、落盘、分流提供配置管理服务4、数据解析服务:提供端侧数据解密、解析服务5、数据采集服务:提供高可靠、高性能的数据数据采集服务,实时接收数据上报,落盘6、HASA:端侧操作系统常驻进程,根据事件上报策略,上报端侧数据华为终端云DataOps能力框架IF5:端侧数据上报HASA数据采集服务WiseData数据采集配置服务数据解析服务鸿蒙APP事件管理服务事件配置下发服务IF4:配置获取IF3:端侧数据配置下发IF6:数据采集配置下发、数据分流IF7:端侧数据入仓IF8:数据接入配置获取IF9:数据解析IF10:端侧元数据管理IF2:端侧数据接入审核I
42、F1:端侧数据注册/下线运营/开发审核人员审核人员事件配置下发服务配置下发能力分发策略控制CDN能力事件管理平台事件注册审核批量注册隐私合规审核事件灰度能力事件治理元数据管理事件解析服务事件解密事件解析事件授予数据采集配置服务数据接入配置数据留存配置数据落盘配置弹性伸缩配置数据分流配置安全&监控17PAGE华为终端云DataOps能力框架(三)数据生产数据开发通过构建开发、测试、发布、部署的全流程Build-In工程能力,面向自助分析、AI特征、画像标签、运维指标等场景提供多模式、多环境的数据协同开发、发布与部署等能力,提升数据开发敏捷性、效率及数据质量,大大降低业务使用大数据的门槛,为业务提
43、供一站式多人协同开发能力。数据开发主要解决以下问题和痛点:1、数据任务:开发效率低,交付周期长。2、数据测试:能力弱,同时需频繁切换环境。3、数据发布、部署:无法快速进行数据发布与部署,且不具备发布流程管控。基于以上痛点,提出如下解决方案:1、提供在线协同开发能力,大大提升数据开发任务效率,开发效率由月级降至天级。2、通过构建数据测试能力,实现在不同环境之间的数据调测及数据对比,调试效率由天级降至小时级。3、提供电子流发布、版本管理、跨站点发布等能力,实现高效发布与部署,同时发布管控流程。4、推荐使用的引擎,全面进行产品化,包括:ClickHouse、IceBerg、DMQ、Spark、Fli
44、nk、Hive(表)、NSP、DCS、OBS等。数据开发能力沙盘如下:关键能力1:数据开发数据开发提供丰富的数据引擎、多种开发方式,可支持万人在线协同开发:1、支持万人在线协同开发,提供智能化SQL开发、编排开发、Jar任务开发;2、提供丰富的数据引擎(Spark、Flink、ClickHouse、IceBerg、DMQ)。数据生产能力沙盘数据开发多模式编排开发支持多类型引擎丰富的调度配置软件包管理支持脚本变量、UDF多人协同开发(归档)数据发布电子流审核发布历史记录版本管理(对比、回滚)数据实体发布跨站点发布(云眼)灰度(双跑)数据部署 部署上线(跨站点)下线任务数据测试脚本调试数据形态探查
45、/对比Code Review测试用例环境隔离(沙箱、探索)静态检查(SQL Scan)18PAGE华为终端云DataOps能力框架(四)数据调度与运行数据调度与运行通过基于云原生架构构建流/批一体执行调度引擎,针对数据接入、数据集成、数据开发、数据质量、数据出湖等场景下生成的海量任务提供百万级并发、秒级响应能力,提升海量任务并行运行效率、可靠性,为海量数据价值挖掘与呈现提供运行基础。数据调度与运行业界典型痛点:1、批、流调度架构不统一,构建、维护成本高;2、海量任务调度无法横向扩展;3、调度有状态、持久化,变更需中断业务;4、不支持租户隔离、任务隔离、无法灰度策略运行;5、无运行过程监控、SL
46、A预测、异常一键诊断能力,运维、定位难度大成本高;6、任务SLA由于无法感知底层资源使用情况,不能够及时达成。为解决上述痛点,结合终端云大数据使用场景提供以下解决方案:关键能力2:数据测试数据测试支持数据任务在不同环境的静态检查、调试、测试用例的管理和执行等能力。1、支持数据环境隔离能力,具备任务在数据沙箱环境快速调试的能力,具备秒级切换环境的能力;2、支持数据任务静态检查,包括SQL语法检测、门禁检测;3、支持测试用例的管理、执行及结果查看;关键能力3:数据发布、部署数据发布支持数据任务上下线的流程管理、跨站点上线、灰度双跑等能力。1、支持任务快速上下线,上下线需通过电子流审批,且具备上下线
47、全流程的操作记录,实现上下线的流程管控;2、支持跨站点发布与部署能力,发布时可选择不同站点,达到秒级同步至其他站点;3、支持数据任务灰度双跑能力。19PAGE华为终端云DataOps能力框架1、统一调度引擎,支持大规模任务调度(百万级)低时延(秒级下发)。Dataops调度层融合批和流调度架构,通过构建统一任务调度元数据管理系统,及根据任务负载弹性部署调度和Worker节点,在保证业务并发扩容的同时,能够减少人工运维的工作量,同时达到调度和执行能力动态扩展。当前调度系统支持hive、spark-jar、spark-sql、flink-jar、flink-sql、shell、http、seatu
48、nnel等大数据任务类型插件式调度,新接入类型只需简单适配插件即可实现对应任务的调度能力。支持分钟、小时、天、周、月任务,自定义偏移时间调度。为了支持各业务之间的数据授予需求,支持任务全局隐式依赖。百万级任务并发调度关键技术:任务分片:传统主备调度系统受限于单节点调度性能,Dataops将任务根据调度节点SLOT-ID进行分片处理,百万级任务可以轻松下降到十万甚至万级任务。分布式调度系统一般需要分布式事务或者锁来控制,因为系统中任务实例是提前加载的,乐观锁的耗时不会影响调度的时延。横向扩容:调度任务数量随着调度节点的扩容线性增长,通过表分区、分表单节点调度性能不会产生损耗。时间片算法:通过时间
49、轮,叠加优先级队列,快速将任务实例推向下游Worker节点。X-SchedulerMemCache预加载时钟算法Dispatcher智能监控关键路径计算任务预测资源计算统一任务队列智能调度flinkspark数据质量集成flinkspark数据质量集成flinkspark数据质量集成CCESFS(client)YARNMRSMQT1590T2T3T4T520PAGE华为终端云DataOps能力框架2、调度运行可靠性,全年五个9稳定运行。调度低时延关键技术:关键技术:多AZ:调度节点、执行节点多节点跨region分布式部署,避免单节点运行。拓展性:调度节点、执行节点动态扩容,业务无感知。扩容不需
50、要重启、暂停调度,节点间自动协调任务调度。故障容错:调度节点故障,由调度节点自动接管。执行节点故障后,调度不再下发任务,将任务协调到其他可用节点。滚动升级:dataops服务升级,故障不影响任务运行,执行节点升级后,任务自动切到新版本,老版本任务保持执行,完成任务执行后自动退出。执行灰度:云服务业务按照BU划分集群,为了支持集群灰度升级等场景,执行节点支持灰度发布,将某些子数据域下的任务优先灰度到新的节点执行验证。实例预生成:通过任务执行时间预加载到内存,提前将任务实例生成。耗时:0 事件触发:对于存在依赖的任务调度,依赖任务完成后通过事件触发,加速任务调度就绪状态判断。对于无依赖的任务,通过
51、时间片轮训,到时间直接下发。耗时:毫秒级 低负载Worker优先:为了保障任务提交快速执行,执行worker节点定时上报节点负载状态,调度优先选择低负载节点运行,保障任务执行。(五)数据治理数据治理通过构建数据资产管理、数据质量管理、数据安全等能力,提供大数据场景下的全生命周期治理能力,提升数据运行效率、质量,降低数据安全风险,为业务提供安全且易于访问的高质量数据。调度时延执行完成任务启动下发执行就绪完成生成实例达到执行时间21PAGE华为终端云DataOps能力框架云服务数据治理典型痛点:1、业务组织多样,开发人员数量大,海量数据难以治理;2、开发治理脱节,管控治理规则不清晰,数据成本高3、
52、数据质量指标不明确,管理难度大数据治理这个名词翻译自英文Data Governance,有时也会被翻译成“数据管控”。业界权威组织Gartner对数据治理定义是:数据治理是通过组织、制度、流程、技术的结合与实践活动,用以管理、维护和开发作为企业信息资产的数据。数据治理不同于数据管理,管理是你做出的决定,治理就是为这些决定制定愿景、政策、标准、流程和规则。治理是执政的行为,它涉及到定义期望值,授予权力(决策权),并且对结果进行验证。治理是统一的管理,有凝聚力的政策、指导、流程和规则,以确保我们在合适的时间,以正确的方式在做正确的事情。治理将为企业建立一个愿景,并制定相应的政策,企业愿景,指导原则
53、,标准和规则,管理是确保这些政策,标准,原则和规则的实际应用,并在新的和现有的系统中体现。治理把与业务战略相关的决策和监督与实际操作紧密联系起来。是“生、养、管、治”一整套体系:数据治理数据资产数据留存指标管理数据目录数据血缘数据安全隐私管理电子流分类分级审计质量策划质量控制质量预防数据质量01标准定义创建收口02各服务记录上报资源使用量03从部门-数据域-子数据域超级APP维度展示生组织域产品域数据域养表单任务资源管体检指标视图呈现治理措施治事前声明事中监控事后审计04自驱动资产治理目标22PAGE华为终端云DataOps能力框架1、数据资产融合数据资产和建模元数据,构建统一、完备的元数据信
54、息库(DMDB),为上层各数据治理服务提供高效、准确的数据资产管理底座,为数据管家提供友好的治理入口。元数据管理构建统一、备案的元数据信息库(DMDB),为上层各数据治理服务提供高效、准确的数据资产管理底座。表元数据信息包括:基础信息、字段信息、血缘信息、数据量监控、生产信息、影响分析、历史版本,覆盖数据治理的各个维度。数据生命周期数据的全生命周期如下图所示,生命周期状态包括:草稿、调试、激活、去激活及归档和删除。表上线、表下线及表日落需要通过流程审批,保证表上线及删除的合规和安全。通过生命周期管理实例,对表分区存储周期删除,提供生命周期总览,每日周期删除数据量和Top存储大表的展示。数据资产
55、API统一元数据管理(DMDB)DMQ元数据ClickHouse元数据Hive元数据标签数据字典非结构化数据治理管理资源管控治理度量治理事务管理数据留存留存期规范留存期审计留存期配置血缘管理数仓血缘任务血缘影响分析自定义血缘采集血缘字段溯源表数据全生命周期恢复删除删除删除修改修改下线上线生产上线探索日落草稿调试激活归档删除去激活23PAGE 血缘管理数据血缘关系是指数据在产生、处理、流转到消亡过程中,数据之间形成的一种类似于人类社会血缘关系的关系。数据血缘分析可以梳理系统、表、视图、存储过程、ETL、程序代码、字段等之间的关系,并采用图数据库进行可视化展示。简单地说就是通过可视化展示数据的来源
56、、流转过程、最终归宿及计算逻辑。数据血缘关系的4大特征1、归属性。一般来说,特定的数据归属特定的组织或者个人,数据具有归属性。2、多源性。同一个数据可以有多个来源(多个父亲)。一个数据可以是多个数据经过加工生成的,而且这种加工过程可以是多个。3、可追溯性。数据的血缘关系体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性。4、层次性。数据的血缘关系是有层次的。对数据进行分类、归纳、总结等描述信息又会形成新的数据,不同程度的描述信息形成了数据的层次。华为终端云DataOps能力框架2、数据质量 数据质量定义结合业界、集团数据质量管理标准和框架,提炼云服务数据质量管理框架,构建数据
57、质量自动化检测和评测能力,内嵌到数据关键作业流中。梳理历史问题,不断丰富数据典型失效模式和指标定义,逐步实现数据可信。数据质量过程数据质量服务具有多种功能,主要包括数据质量总览,规则管理、任务管理、质量告警和数据评估,保证了数据在生产及使用过程中的可靠性和合理性,从而避免因为数据质量问题而导致数据失信、决策失误。依据监控规则进行数据监控,支持离线任务数据监控和数据源质量监控。数据质量管理框架执行完整性有效性唯一性一致性准确性及时性执行优化设计质量*40%对领域所有业务对象的数据架构建设情况进行评估执行质量*60%聚焦影响“财报”和“业务运营”的关键数据,对准质量六性评估资产目录设计数据模型数据
58、分布数据标准+24PAGE华为终端云DataOps能力框架3、数据安全数据安全遵循湖外严控,湖内提效原则,提供事前声明、事中监控、事后审计能力,降低数据安全风险,提升数据共享效率,保障了数据的合规和高效流转。数据安全痛点:1、数据隐私、安全要求高,保障风险大;2、数据种类繁多,安全管控规则多样;3、数据孤岛共享不易,数据共享效率低总体原则:遵循国家相关法律要求,结合服务特点,制定以下管理原则:数据识别原则数据资产的识别、注册与盘点是管理数据资产的基础,各业务领域应按要求进行数据资产信息的识别与注册,形成数据资产清单,例行或按规则进行盘点。职责明确原则各业务部门是本业务领域数据资产化和管理的第一
59、责任人(数据Owner),应采取相应措施落实相关责任和要求,控制风险,促进共享,提升数据质量,保证数据安全。数据评测定义关键数据项,持续的数据质量检查和监控。根据数据质量评分标准,对业务的数据质量进行评分,输出质量报告,推动数据质量持续提升。采取事前的预防和检查措施,采取额外的措施进一步增强事前预防和检查过程,数据质量必须由不同的数据管理者根据端到端流程进行维护,数据从一个数据管理者移交到另一个主题,需要遵守SLA的约定,企业范围的数据质量倡议者需要推动端到端的数据质量治理,确保数据跨越不同的数据管理者,仍旧保持数据的一致性和标准。任务开发提交上线质量校验质量异常规则强弱弱规则强规则下游流程熔
60、断通知告警但下游任务继续执行25PAGE华为终端云DataOps能力框架 合规合约原则数据处理活动须遵从适用的网络安全与隐私保护相关法律法规、合同义务和华为自身的明确要求(如明确的对外承诺、数据管理战略要求)。确保安全原则对分类分级的数据进行与之相匹配的安全管理,采取管理和技术措施确保数据以及承载数据的IT基础设施及系统安全,保护数据全生命周期的机密性、完整性、可用性。充分共享原则数据资产应在安全合规的前提下充分共享,数据生产/保管部门不应拒绝合理的数据共享需求。对于合理的数据申请,数据Owner应及时响应并提供共享服务。透明可控原则数据处理应当遵循透明可控原则,数据收集、使用、共享应当提供可
61、视化的自证清白的能力。对于数据采集/接入,数据过程的血缘可追溯,数据开放/共享的能力提供IT可视可控的能力。可追溯、可审计留存必要的数据获取授权、数据访问、转移、删除等关键活动记录,做到数据关键活动有记录、可追溯、可审计。核心架构&关键技术:终端云服务数据安全治理体系数据安全治理目标管理运营合规合约、网络安全风险可控、数据安全使能能力数据安全治理政策要求决策(消费者云服务总裁授权组织)技术管理(安全TMG)治理原则执行(各级数据Owner)数据识别职责明确分类分级合规合约确保安全可追溯可审计组织和责任法律法规消费者BG数据安全管理要求审计分类分级规范/安全隐私管理指导书产品开发中构筑数据安全能
62、力(Privacy/Data Security by Design)数据资产与承载数据的网络和系统安全(机密性、完整性、可用性、可追溯性)网络防入侵产品安全基础数据安全数据活动合规(基于数据 生命周期)数据收集数据传输数据存储数据使用数据共享数据销毁1、采集合规2、数据校验3、数据识别1、通道加密2、数据加密1、加密存储2、备份恢复3、数据留存1、隐私保护2、数据脱敏1、安全管控2、使用控制3、跨境管理1、数据销毁2、介质管理分类分级访问控制数据安全体系化监控分析应急响应数据运营业务26PAGE华为终端云DataOps能力框架数据安全主要承载平台安全合规相关能力,力求做到数据全流程合规可控,为
63、平台的数据安全保驾护航。构建统一的数据全流程安全体系,遵从湖外严控,湖内提效的策略,支持事前声明、事中监控、事后审计的能力。基于终端业务数据安全隐私管理规范要求,基本能力已具备。同时在安全合规的前提下,兼顾高效和体验。分类分级联合安全、合规部门建立统一的数据分类分级方法,由数据开发与治理联合共工作组例行发布分类分级基线终端业务数据分类分级定义与应用全景图如下图(数据分级分类的变更和定义采用相同的管理过程)。其中数据分类分级将在数据开发和治理过程中进行定义和标记,从而在数据各类应用环节中影响到对数据的具体管控要求和行为。流程管控在数据的整个生命周期处理活动中,各领域都有义务保护数据安全,合法合规
64、使用数据,根据数据的类型、数量、安全级别,采取必要措施确保数据持续处于有效保护和合法利用的状态。其中在数据入湖和数据出湖时,应保证足够的安全。一方面要禁止不合规的数据进入数据湖,如未经过用户授权的个人敏感数据,杜绝法律风险;另一方面,在数据出湖时,应严控出湖的场景与审批,防止数据泄露。数据分类分级定义及应用数据分类分级定义数据分类分级标记数据分类分级应用数据数据使用环节应用分类分级管控规则数据开放共享数据工程师/数据分析师数据集成/报表发布/标签发布数据分析师特征/模型发布数据科学工程师数据监控&质量评测数据运维工程师个人数据分类分级标记SDE-SE/DI设计元数据分类分级标记数据工程师/数据
65、接入特征数据分类分级标记AI与算法工程师/特征工程标签数据分类分级标记数据分析师/标签开发数据分类分级基线数据开发与治理委员会个人数据分类分级隐私TMG业务数据分类业务数据Owner经营数据分类部门数据Owner系统运行和安全数据分类运维数据Owner安全/隐私TMG数据分级安全/个人数据保护规范WiseDataOps数据分类分级及合规规则管理/数据安全传输存储使用平台能力27PAGE华为终端云DataOps能力框架 高效共享终端云服务主要的数据内部共享和对外开放操作需要遵从整体数据分类分级对数据安全和隐私的管理要求,在合规的前提下实现业务高效共享。目前终端云服务主要的数据共享场景如下:遵循湖
66、内合规管控策略:湖外严控,湖内提效;事前声明、事中监控、事后审计原则。宽用数据管家严出数据监管团队(数据管家、产品经理、隐私代表、法务代表)严进数据监管团队(数据管家、产品经理、隐私代表、法务代表)网络隔离数据出湖数据入湖三方系统业务1业务2办公应用网络隔离数据分类分级生产环境业务系统探索环境数据授予数据同步数据域A数据域B数据共享管理典型场景业务间数据共享业务系统A业务系统B大数据平台业务A数据业务B数据公共数据数据出湖数据授予三方数据开放数据开放业务系统三方系统环境间数据共享生产环境A作业环境生产环境B探索环境数据同步数据提取28PAGE华为终端云DataOps能力框架(六)数据运维数据运
67、维构建面向数据域的运维能力,主要提供数据诊断、故障预防、数据操作等功能,提升用户自运维效率,保障运维过程高效、可靠、低成本。业务背景和运维挑战解决措施:依托EB级数据量的大数据系统的运维经验,构建贯穿事前(智能预防),事中(智能监控)、事后(智能保障)的端到端智能Dataops数据运维系统,实现从数据生产到消费的数据运维能力。1、智能调度在大规模数据调度场景下,存在如下典型场景需大量运维人力支撑:1、队列资源配置依赖人的直观经验,无法直观审视资源配置的合理性,切换队列资源流程长;2、智能调度策略不灵活,跨集群资源弹性、跨队列资源调度困难,无法方便的将繁忙数据域的任务调度到空闲队列,无法直观的划
68、分队列间的资源;3、集群资源固定集群/队列整体资源使用率不高为解决上述问题,构建基于资源、SLA感知的智能调度平台,通过一键式、自动化调度平台提升运维效率;1、稳定性挑战业务不断演讲,现网愈发复杂,EB级的数据量,带来监控与故障恢复的难。2、成本挑战用户的资源需求超过资源供给能力,资源需求的峰谷差异导致资源浪费。3、效率挑战局点、场景、产品不断增加,如何在人力不增加的情况下更快速的变更、交付,满足业务目标。数据应用开发与运维(DataOps Pipeline)内部数据外部数据设备数据业务上报数据(端/云)爬虫数据采购合作数据(内容)数据价值数据应用需求规划数据开发与发布数据应用开发与发布数据运
69、维数据反馈数据需求分析数据接入自助分析智能调度数据评测数据建模数据同步任务开发与编排数据评估与验证数据发布部署数据集成模型开发与发布部署报表开发与发布部署智能诊断数据迁移数据共享申请问题反馈智能存储数据需求设计标签开发与发布部署数据应用任务监控29PAGE1、任务的一键式调度;2、资源的跨队列一键式调度;3、资源跨集群一键式调度;4、公共资源调度,如CCE夜间扩容白天释放;5、混部集群,在线系统低峰期运行离线任务2、智能监控&诊断通过构建基于调用链、日志的智能诊断平台,实现任务并发、依赖关系、集群资源等关键调度、诊断数据的实时可视,常见故障一键获取故障根因并给出对应解决措施,显著提升定位效率和
70、使用体验,同时也为用户自运维打下基础。3、智能存储在海量数据存储成本长期高企的背景下,如何有效降低存储成本成为关键运维方向之一。在该背景下DataOps数据运维完成智能存储能力构建,通过自动化的冷热数据归档、生命周期日落,在数据存储量级不变、使用体验不降低的情况下实现存储成本降低50%+。华为终端云DataOps能力框架(BU)MRS集群(BU)MRS集群队列B队列A队列C32队列A队列B(BU)MRS集群队列A队列C11队列B队列CYarn On CCE公共资源4混部集群(CH等)AAA5智能监控/诊断资源采集根因分析执行预测依赖检查自定义监控资源预测IF1IF3IF5IF6IF2IF4IF
71、1:前台展示资源和任务监控结果IF2:从调度模块获取任务执行实例IF3:根据子租户ID从子数据域获取使用的队列IF4:任务执行完之后,TaskOptimizer对任务进行解析,任务执行信息汇总IF5:在集群中获取集群、队列的使用情况;IF6:通过YarnAPI获取正在执行的任务占用资源情况,和队列执行中的任务列表调度TaskOptimizerPortalYarn子数据域管理MRS30PAGE4、数据迁移业务生产运维过程中会涉及到已有系统到Dataops系统的数据迁移,Dataops识别操作痛点,抽象搬迁的对象模型,提供如下的一键搬迁能力,包括:数据搬迁、任务搬迁、搬迁后的能力比对。华为终端云D
72、ataOps能力框架智能存储的优势:1、通过冷热数据自动判断数据的归档周期,无需对表进行操作2、每天定时执行,无需人工干预,执行效率高3、清晰的查看表分区的归档情况(待归档,归档中,已归档)4、可以为很直观的看到具体归档数据(如累计归档了多少,单az归档了多少,3az归档了多少等),提供元数据支撑(即分区文件大小)(七)开放平台通过构建统一开放能力,面向标签、特征、数据开发、事件监控的应用场景,提供能力开放、数据开放、事件开放等能力,具备统一鉴权、权限管理、流量控制、质量监控、访问审计等,提升业务数据构建与应用的效率,帮数据操作系统设置归档策略降成本效果计算恢复数据请求执行归档执行恢复(子)数
73、据域/Hive表(子)数据域Hive表(电子流触发)表创建分区生成建表分区转归档分区生命周期完结分区转热数据冷备数据周期(天)热数据周期(天)数据搬迁任务调测任务下线任务搬迁准备动作操作权限准备MRS集群搭建Hive搬迁数据转存数据转存表表迁移表表迁移1.TCC任务分析依赖2.数据同步 a oneWork模式 b.Disctcp模式3.配置增量同步任务报表系统数据开发任务1.打通原报表系统和新mysql,双跑CRT,对比校验2.新搭建报表系统替换1.下线olap、Cube、CH务2.下线无反向依赖D层任务1.TCC任务分析依赖2.任务同步导入3.Hive任务转化为Spark任务1.任务分层,(
74、数据源层:o层,部分D层业务和模型层:部分D层和A层)2.分层迭代搬迁,根据实际情况跳过相应步骤1.脚本运行对比(结果一致,耗时一致)2.数量对比(数量一致,内容一致)HiveToMysql1.Mysql搬迁2.HiveToMysql任务配置Kylin31PAGE华为终端云DataOps能力框架助数据产品实现价值最大化。能力开放解决如下痛点:1、业务在数据产品平台上构建数据应用的效率低。2、业务数据无法得到共享,各业务需自行构建一个独立、安全、可靠的数据服务,导致重复烟囱式的开发,造成人力、资源的浪费。3、业务无法实时监控表、任务、实例的状态变化。基于以上痛点,提出如下解决方案:1、构建Ope
75、nAPI,开放近百个标准能力API,通过调用API可快速对接WiseDataOps,增强与各数据产品之间的协同能力,进而提升业务在数据产品平台上构建数据应用的效率,构建效率由天级降至小时级。2、构建OpenData,提供高效易用、安全稳定的数据开放平台,帮助业务快速构建数据开放API,减少各业务重复构建数据服务,可分钟级构建数据开放API。3、构建OpenEvent,支持事件注册、事件订阅,帮助业务通过监控WiseDataOps的资源变化,到达个性化的响应。开放平台的能力沙盘如下:关键能力1:能力开放(OpenAPI)1、开放数据域、数据资产、数据开发、数据运行、数据治理等模块API2、支持A
76、PI统一鉴权、应用鉴权3、支持API调用频次、审计日志查看能力关键能力2:数据开放能力(OpenData)1、支持多模式API注册2、支持API在线调测、发布、下线关键能力3:事件开放能力(OpenEvent)1、支持自定义事件、事件发布、事件订阅、事件下线能力开放数据开放事件开放基本能力Restful规范统一鉴权多模式API注册事件定义分布式限流、熔断应用授权API调试事件发布API全生命周期监控API发布事件订阅审计日志API下线事件下线32PAGE未来展望未来展望06主要方向:数据即代码:清晰定义数据实体及业务过程,明确价值边界,并实现逻辑模型与物理实现的解耦;以便DataOps可以管理
77、所有按规则定义的数据。流程解耦:流程、规则、安全要求和实现解耦,支持灵活定义。OPS融合:软件、数据、模型的工程能力进一步融合,指数级提升研发作业效率 AI in DataOps:动态态势预测与智能调度能力解决资源平滑使用,提升资源利用率;智能安全、隐私感知,提升数据分级分类效率与准确性;智能分析辅助,进一步提升数据分析的效率。33PAGE华为终端云实践案例华为终端云实践案例07(一)基于 DataOps 实现数据高效接入&AI 实时推荐实践DataOps适用于数据产品服务端到端开发场景,连接数据团队和业务团队,建立标准的数据接入、建模、开发、部署、运维流程。使组织更好的开展数据应用开发与运维
78、(DataOps Pipeline)。从业务立项和需求提出开始,整个数据价值构建和最终交付过程涉及到软件、数据、模型的配合,需要DevOps、DataOps、MLOps三个流程衔接完成最终的AI实时推荐。华为终端云WiseDataOps平台在端到端数据价值构建基本能力如下:1、数据应用开发与运维(DataOps Pipeline)实现从数据生产到消费的价值挖掘;提供数据接入-数据建模-数据开发-数据分析能力通过任务编排服务有效整体管控调优。2、数据治理以数据资产为核心,提供数据安全、质量、共享管理相关要求,并内嵌到DataOps Pipeline过程。3、流程和内控体系,使能数据资产有序管理-
79、数据共享合规高效-数据作业合规高效-数据质量可信华为终端云WiseDataOps平台支持端侧数据接入、建模、为推荐模型训练提供基础数据,并与MLOps联合实 现模型实时训练,提供AI实时推荐能力。持续规划AI业务风险评估与定级、AI需求分解与分配模型纳入版本测试软件服务/推理代码发布部署AI业务风险评估与定级业务运行监控数据为模型效果评估提供输入数据治理为AI提供真实、有效的数据集AI需求分解对数据的需求为AI提供数据集和数据加工作业流程支持算法模型是数据应用的一个实例化场景持续部署与发布持续运维持续反馈持续开发DevOpsMLOpsDataOpsOBP数据应用开发与运维数据治理需求计划分析与
80、设计开发与测试众测灰度发布业务监控分析设计数据准备算法开发模型验证模型打包模型发布云侧部署端侧分发模型推理效果评估模型日落模型(再)训练数据应用需求规划数据开发与发布数据应用开发与发布数据反馈数据需求分析数据评测问题反馈数据巡检监控数据备份恢复数据/任务日落数据告警和事件处理任务调度数据迁移资源管理数据集成标签开发与发布部署报表开发与发布部署自助分析模型开发与发布部署数据需求设计数据接入数据共享申请数据资产管理数据安全隐私数据开放共享数据质量管理数据建模数据同步任务开发与编排数据评估与验证数据发布部署数据运维34PAGE华为终端云实践案例(二)DataOpsPipeline 数据开发与运维实践
81、DataOps中心思想强调数据价值,生产消费协作和持续交付,需要具备针对数据工程的持续集成和持续发布能力,才能实现敏捷流程的目标,实现端到端的数据流通,从而与业务目标保持一致。在业务日常的数据应用场景中,由于团队边界导致数据的生命周期分裂在不同系统内,数据难以共享。并且不同的工具和系统专注于系统内的功能,不能提供端到端的数据开发分析能力。数据作业缺乏以数据为中心,组织协作,面向数据全生命周期的有效实践从数据需求到数据交付这个数据作业过程中,涉及到数据采集、转换、加工、测试、发布、调度等过程。终端云WiseDataOps平台借鉴业界实践理念,定义数据应用需求规划、数据开发与发布、数据应用开发发布
82、、数据运维、数据反馈端到端活动。通过构建1个E2E数据应用开发与运维的DataOps Pipeline,覆盖数据从生产到消费的全部作业流,做到数据资产、作业、版本可追溯,面向数据作业人员,提供一站式作业入口。同时和DevOps及MLOps充分协作,三个流程匹配不同交付形态,支持云服务产品各数据及数据应用场景的高效交付,提高数据分析质量并缩短数据交付及数据应用分析交付周期。3模型训练及推理基于MLOps实现模型训练1数据准备基于DataOps实现数据分析和特征工程2端侧数据接入APP应用端侧行为数据在授权前提下采集接入应用层APP范围请求人信息上下文信息用户请求湖仓skd采集服务器用户行为数据历
83、史行为物品数据数据分析WiseDataOps特征工程人应用WiseMLops数据同步任务数据预处理全量/增量模型训练模型评估模型发布实时推荐ABTest数据应用需求规划数据应用开发与发布数据接入数据接入工程师数据开发与发布数据建模数据架构师数据同步数据工程师任务开发与编排数据工程师数据评估与验证数据工程师数据发布部署数据工程师数据集成数据工程师数据运维数据反馈数据需求分析产品经理AI与算法工程师标签开发与发布数据运营人员报表开发与发布数据运营人员自助分析数据分析师MLOps数据共享申请产品经理数据需求设计数据架构师KCP自动门禁图例巡检监控数据湖管理员/数据域管理员/数据运维工程师告警和事件处
84、理任务调度数据迁移数据备份与恢复数据/任务日落资源管理数据湖管家/数据湖管理员/数据管家/数据域管理员数据评测问题反馈35PAGE1、提供标准数据作业发布流程,更加贴近业务的数据版本,实现数据版本可管理、可追溯;平台提供需求关联能力,可与业务数据作业版本进行关联,保证版本可追溯。同时提供数据测试能力,业务测试人员可以参与数据版本发布环节,记录测试问题,保证作业流程完整可信。2、提供SQL类型任务Git归档能力,保证SQL类型任务可追溯,有效统计管理个人产出。平台对接代码仓服务接口能力,按照作业版本将任务脚本统一归档,避免业务手动归档维护操作,脚本管理流程在DataOps平台闭环。3、与标准De
85、vOps流程协作,提供符合DataOps规范的简易发布流程,一站式完成非SQL类型任务的开发、发布、运维。DevOps提供了快速构建和部署软件的最佳实践,但是非SQL类型任务数据作业流程中,存在平台操作割裂的情况,DataOps平台和DevOps流程没有有效结合,当前非SQL任务发布流程受限于Devops标准发布流程。DataOps Pipeline通过对接DevOps,平台侧接管软件发布流程,简化标准发布流程,定义符合DataOps规范的简单流程,达到提高效率,快速发布的目的。4、定义DataOps Pipeline流程中标准的数据作业实体结构,规范业务数据开发代码的结构形式并提供DEMO,
86、方便业务快速入门。DataOps Pipeline定义一套标准的打包目录结构和开发规范,统一代码结构,业务侧依据DEMO示例完成Pipeline版本的开发,实现多任务和全流程的快速发布上线(三)元数据管理(数据实体&信息架构树)实践元数据管理是大数据生态的一个重要组成,通常指的是表的元数据信息。在DataOps生态中通常也会被定义为表的元数据信息,同时会附带管理属性例如:打标信息,分类分层等信息。华为终端云实践案例子数据域元数据信息基本信息集群信息人员信息部门数据域子数据域集群名称队列MRS用户数据Owner数据管家隐私代表法务代表数据实体元数据信息名称版本类型:表/标签/指标/用途:广告/推
87、荐/责任人层级:ODS/DWD/DWS/ADS/DIM任务元数据信息名称版本:继承数据实体版本层级:继承数据实体层级责任人:继承数据实体责任人表元数据信息名称版本:继承数据实体版本ID体系用途:继承数据实体用途层级:继承数据实体层级隐私等级字段信息责任人:继承数据实体责任人【模型】DataTable1【任务】DataJob1【依赖】Dependency DataEntity1【目录】产品【目录】数据域【目录】子数据域【目录】数据归档包(Data ARchive)DAR元数据信息发布信息人员信息版本文件部门:继承上层数据域:继承上层子数据域:继承上层发布包类型:DAR发布版本发布时间数据Owne
88、r:继承上层数据管家:继承上层隐私代表:继承上层法务代表:继承上层交付件名称依赖实体元数据信息版本名称部门数据域子数据域数据归档包【数据实体】【数据实体】【数据实体】【数据实体】【数据实体】DataEntity136PAGE(四)声明式数据接入管理实践华为终端云WiseDataOps平台匹配业务DevOps软件开发流程,提供高效,可靠,可控的数据接入能力,满足海量数据接入。声明式数据接入管理能力实践过程总结:痛点:DevOps与DataOps脱节,无法保证业务接入的设计与实际接入数据一致;业务数据变更后DataOps无法自动感知;接入过程数据量不可度量,缺少对接入数据的流控管理,无法及时发现数
89、据丢失或数据突增等接入异常;方案:构建声明式数据接入,明确供给的配置和属性,由声明式管理平台自动判断数据接入合理性,准确性,提供可监管(元数据验证,数据格式验证)自动化(数据配置生成,自动部署接入),可度量(流量,溯源)等能力。围绕DataOps统一元数据和数据实体的创建、开发、应用、管理四个方面,将DataOps平台中各功能串联起来,从面向任务的开发转变为面向数据实体的开发,转绕数据实体构建数据开发与治理能力。1、基于统一元数据的建模,分为创建逻辑模型和物理模型两部分,逻辑模型统一,物理模型区分不同存储引擎;2、基于逻辑模型提供统一的数据标准,包括实体命名规范、字段命名规范、字段类型规范、数
90、据分区规则、数据分层规范、数据分类分级规范等;3、同一数据实体支持多个物理模型,按不同的存储引擎配置不同的物理元数据;价值描述:从面向任务开发-面向数据开发,从面向表的治理-面向数据实体的治理;统一表和任务的生命周期管理,消除信息孤岛,同时数据实体的开发、治理、运维IAC化、基于Git进行代码管理,提高数据工作者的效能,提供一个可度量的数据开发平台。华为终端云实践案例埋点设计声明式管理DataOpsDevOps数据流DataOps流程 DevOps流程 数据需求分析产品需求分析和设计数据库设计业务系统设计云侧打点设计端侧埋点设计云侧服务发布&部署端侧APP发布业务数据库上线数据测试数据发布调测
91、数据采集数据接入数据入湖云侧Agent采集服务器数据库Canal授权上线待构建接入设计声明式管理自动化接入37PAGE1、打通DevOps和DataOps流程,在DevOps阶段使用DataOps能力对元数据、埋点数据进行设计和验证,保证元数据的正确性2、提供声明式管理平台,验证业务接入数据的合规性,从源头规范数据格式,做到数据接入策略可溯源,数据可度量,合理规划接入资源使用,提升资源利用率3、基于IAC3.0数据接入流程自动采用DevOps发布的元数据,无需人工输入,自动保证版本一致性华为终端云实践案例(五)数据安全(分类分级)管理实践数据分类分级是数据安全的基础,是建立数据安全防护体系的第
92、一步,只有做好分类分级工作,对不同分类不同密级的数据采取不同的安全防护措施,才能在做好数据全流程动态保护的情况下,同时提高数据共享的效率。数据分类分级能够帮助企业对数据资产进行全面的盘点,了解敏感数据分布、类型、量级,做到心中有数,以此构建企业级的数据资产目录,为之后企业数据资产管理和数据安全体系建设打好基础终端云WiseDataOps平台构建数据开发端到端工程能力,提供“可信、高效、自治”的一站式体验,支撑数据管理员、工程师、分析师等专业角色在合规前提下实现数据实体的高效共享和快速交付,实现业务数据生产到应用消费的端到端价值,平台提供统一分类分级能力,为数据安全管理提供风险评估基准1、在云服
93、务联合隐私、财经、运营、运维建立统一的数据分类分级方法,由数据开发与治理联合共工作组例行发布分类分级基线,例如:个人数据、业务数据、部门经营管理数据、系统运行和安全数据四大类型。2、终端业务数据分类分级定义与应用全景图如下图(数据分级分类的变更和定义采用相同的管理过程)。其中数据分类分级将在数据开发和治理过程中进行定义和标记,从而在数据各类应用环节中影响到对数据的具体管控要求和行为数据分类分级定义及应用数据分类分级定义数据分类分级标记数据分类分级应用数据数据使用环节应用分类分级管控规则数据开放共享数据工程师/数据分析师数据集成/报表发布/标签发布数据分析师特征/模型发布数据科学工程师数据监控&
94、质量评测数据运维工程师个人数据分类分级标记SDE-SE/DI设计元数据分类分级标记数据工程师/数据接入特征数据分类分级标记AI与算法工程师/特征工程标签数据分类分级标记数据分析师/标签开发数据分类分级基线数据开发与治理委员会个人数据分类分级隐私TMG业务数据分类业务数据Owner经营数据分类部门数据Owner系统运行和安全数据分类运维数据Owner安全/隐私TMG数据分级安全/个人数据保护规范WiseDataOps数据分类分级及合规规则管理/数据安全传输存储使用平台能力38PAGE华为终端云实践案例(六)数据质量评测体系实践围绕终端业务数据可信的目标,设定合适的数据质量评价方案和目标,并通过控
95、制、改进披露数据质量问题与短板,促进问题改进,以达到数据质量水平的提高,提升数据的客户满意度。如下为框架顶层设计:3、个人数据DI设计、数据入湖、特征工程、标签开发等数据开发活动集成数据分类分级表级打标能力,平台提供针对ODS和DIM表的手工打标为主,DWD,DWS及ADS表平台的血缘集成能力为辅的打标能力,并在接入和建模的入口,强制打标,保证数据进入DataOps就是经过分类分级的,并对存量表进行手工或血缘进行持续治理,打标率100%。“数据治理指数”关注数据资产架构设计和治理的有效性,包括资产管理、安全隐私、数据建模、质量管理共四个维度;“数据价值指数”关注数据价值挖掘和成本控制的有效性,
96、包括数据共享价值、数据应用价值以及数据成本三个维度;“数据健康指数”则关注最终数据在生产环境中实际监测到的数据一致性、完整性、及时性、准确性、唯一性、有效性各维度的表现得分。评测框架一方面用于指导数据相关团队、角色在数据接入、加工、任务编排、监控等数据作业环节对数据的验证和测试;更重要的是用于长期跟踪各数据管理单元数据开发和治理的健康度、成熟度,帮助团队识别数据相关的短板,持续优化当前的数据管理过程。涉及数据治理指数、数据健康指数、DataOps Pipeline的质量设计等。数据治理指数资产管理安全隐私数据建模质量管理数据健康指数完整性有效性一致性唯一性及时性准确性数据共享价值数据应用价值数据成本数据价值指数