1、Active Metadata:A New Pillar for DataOps主动元数据DataOps 建设新支点CONTENTS2024Data Always Ready引言01DataOps 体系建设的背景01DataOps 体系建设的目标05元数据从被动到主动,成为 DataOps 建设新支点11主动元数据的关键技术突破与关键衡量指标15Aloudata BIG 主动元数据平台介绍18Aloudata BIG 主动元数据平台客户案例介绍23总结与展望31Aloudata 202401DataOps 作为一个数据技术概念,自 2014 年首次提出至今已有 10 年的时间,同期数据中台作为
2、一种企业数据战略和组织设计,自 2015 年由阿里巴巴首次提出至今也有近 10 年的时间。而在过往的这个 10 年的周期里,企业的数据量、数据需求和用数人群都爆炸式增长,这也直接推动了数据技术日新月异的蓬勃发展,DataOps 也在国内外以不同的形式完成了从技术概念导入到具体应用实践的孕育过程。本白皮书将站在面向未来 10 年的视角,重点探讨 DataOps 的未来发展方向,介绍当下企业建设 DataOps 体系的背景,分享我们对 DataOps 体系在工程架构上的理解,并介绍主动元数据在DataOps 体系中的定位和作用,以及相应的产品方案与客户案例。希望本文能够有助于 DataOps 更好
3、的发展,有助于企业加快数据价值的释放。1970 年,Edgar Frank Codd 在Communication of the ACM上发表题为“A Relational Model of Data for Large Shared Data Banks(大型共享数据库的关系模型)”的论文,打开了企业信息化的大门。此后 10 年诞生了不少数据库产品(比如 Oracle、DB2 等)和基于数据库的应用(比如 OA、MIS、HR、CRM、ERP 等),在提升企业信息化水平的同时,也将企业经营各个环节进行了数据化,企业数据分析和数据决策需求自然涌现,因此 Bill Inmon 在 1990 年提出
4、数据仓库(Data Warehouse)的理念,并将其体系化,很好地回应了企业在商业智能领域管理决策场景的需求,形成了企业数字化建设的第一波浪潮。引言01DataOps 体系建设的背景Aloudata 2024021990 年,Tim Berners Lee 和 Robert Cailliau 合作开发了万维网的第一个网页,打开了互联网的大门;2007 年,苹果公司发布了第一代 iPhone,重新定义了手机,标志着移动互联网时代的开启。从此人们的吃喝玩乐、衣食住行、谈婚论嫁乃至生老病死都被在线化数据化,至此人类进入大数据时代。为了更好地存储、计算与分析海量数据,谷歌在 2003 年到 2006
5、 年期间发表了三篇重要论文:The Google File System(2003 年)、MapReduce:Simplified Data Processing on Large Clusters(2004 年)和 Bigtable:A Distributed Storage System for Structured Data(2006),对整个工业界数据技术的发展产生了深远的影响。2005 年,Doug Cutting 受到 Google 论文的启发,开始开发 Hadoop,2006 年Hadoop 项目成为 Apache 软件基金会的一部分,受 到 广 泛 的 社 区 贡 献。2010
6、 年之后基于开源 Hadoop 生态构建数据平台成为企业数字化 建设的第二波浪潮。2012 年,来自 Oracle 的 Benoit Dageville、Thierry Cruanes 和另一位数据库专家 Marcin Zukowski 一起创立云数据仓库公司 Snowflake。随着云计算的普及,他们认识到传统数据仓库系统存在技术架构和商业模式的创新机会,提出了基于云原生的存算分离架构和按需付费商业模式,自 2015 年正式上线以来获得了大量客户的使用。围绕 Snowflake、Databricks 这类新兴数据仓库和数据湖仓厂商,大量的数据技术领域的创业公司,比如 Fivetran、dbt