《Denodo:逻辑数据编织技术白皮书(18页).pdf》由会员分享,可在线阅读,更多相关《Denodo:逻辑数据编织技术白皮书(18页).pdf(18页珍藏版)》请在三个皮匠报告上搜索。
1、1 2022 Denodo Technologies技术白皮书白皮书逻辑数据编织2 2022 Denodo Technologies目录I 目录目录 2 2 I 摘要摘要 3 3I 引言引言 4 4I 实施数据编织的不同方法实施数据编织的不同方法 7 7I 逻辑数据编织的核心组件逻辑数据编织的核心组件 8 8数据虚拟化:连接、整合和发布层。8执行和数据集成:执行引擎和优化器 9增强版数据目录 9主动元数据管理 10基于 AI 的建议 10具有扩展元数据的语义层 11DATAOPS 及多云配置 12I 逻辑数据编织的主要优势逻辑数据编织的主要优势 1313客户实例:客户实例:DNBDNB 141
2、4计划 14应用场景 15移动银行业务 15机器学习及高级分析 15风险分析 16GDPR 16BI 报告 16关键功能 16产生的价值 I 结语结语 17173 2022 Denodo Technologies 摘要在本白皮书中,我们将定义“数据编织”,研究不同的实施策略,并重点关注逻辑方法的价值。本文将更深入地探究逻辑数据编织的技术架构,以及构建成功的逻辑数据编织的关键组件,包括人工智能(AI)和数据虚拟化在构建过程中的作用。34 2022 Denodo Technologies引言数据编织的概念相对较新,其定义比较广泛。要了解此概念的来源,就要跳出这个概念,分析过去十年来数据管理实践的演
3、变。企业数据仓库(EDW)主导的时代正在落幕。新的大数据计划推动了新兴学科的崛起,其中就包括可用于业务决策的机器学习(ML)和数据科学。由于 IT 部门难以在降低预算的同时管理更多系统,大众集成者和高级用户只能步入商业智能舞台,进行自助服务。云服务和软件即服务(SaaS)解决方案解决了其中的一些问题,但也扩大了数据的分布范围,增加了孤岛数量,进而带来了新的挑战。总之:高级分析和机器学习实践中的新方法导致数据需求日益复杂化。满足不同数据管理需求的不同专业工具不断发展,成为了组织建立“单一可信来源”的障碍。这些新工具包括 EDW、数据集市、关系数据库(RDBMS)、数据湖、noSQL 系统、内部和
4、外部 REST API、实时数据源(包括社交媒体源)等等。现在,多个角色需要访问数据:商业智能(BI)分析师、大众集成者、数据科学家、数据专员、IT 及数据安全专业人员,每个人都有不同的技能和需求。向云端(或多个云平台)过渡时,混合生态系统应运而生。在此生态系统中,数据在物理上变得碎片化。IT 需要灵活地适应新架构,同时尽可能减少中断以支持业务。组织必须在合规性和治理方面实行更高标准,以满足特定的法律框架(GDPR、CCPA)并应对外部威胁。保护和治理混合生态系统可能很复杂且容易出错。在这个数据管理混乱的时代,数据编织的理念注定要为未来的演变制定一些准则。数据编织概述了基于以下核心理念的架构:
5、所有数据源和全体使用者通用的访问层,能够隐藏部署的复杂性,提供单一的可供使用的逻辑系统。提供多种数据集成策略,能够基于不同应用场景无缝使用,同时满足分析和运行场景需求。附加语义,能够让数据元素(以及数据元素之间的关系和联系)的使用、运行和操作变得更加容易。更广泛的治理、文档和安全功能,能够提高人们对数据的信任和信心。自动化,能够利用主动元数据和 AI,显著提升开发、运行和使用此类系统的便捷性。5 2022 Denodo Technologies领先的行业分析机构 Gartner 将数据编织定义为:“一种架构模式,可以提供关于数据对象的设计、集成和部署的信息并使上述操作自动化,不受部署平台和架构
6、方法的限制。它利用对所有元数据资产的持续分析和 AI/ML(人工智能/机器学习),提供有关数据管理以及集成设计和部署模式的可行见解和建议。这将使数据访问和共享更快、更明智,甚至完全自动化(在某些情况下。”因此,数据编织的最终目标是:实现更加敏捷、无缝的数据访问和数据集成,并在许多应用场景中实现自动化。数据编织应具备足够的复杂性以实现高级分析,同时提供一个友好的界面,让业务用户可以与该界面交互。成熟的数据编织应该能够同时支持分析和运行场景。从更具战术性的角度来看,Gartner 表示:“问题的核心在于,使可信数据能够通过一个公共层从所有相关数据源传送给所有相关数据使用者,从而能以高效的方式整合许