1、DataFunSummitDataFunSummit#20242024元数据驱动的数据治理元数据驱动的数据治理李然辉-京东科技-数据资产管理负责人我们面临的时代背景我们面临的时代背景元数据驱动的数据治理元数据驱动的数据治理未来展望未来展望目录目录 CONTENTCONTENTDataFunSummitDataFunSummit#202420240101我们面临的时代背景我们面临的时代背景数字经济时代,数据治理是释放数据资产价值的基础50.2万亿元 经济规模 占到GDP比重 41.5%全球占比10.5%全球排名 2数据治理数据管理数据资产管理传统数据治理方法在大数据环境中不适应 我们面临的挑战技
2、术和存储能力的爆炸式增长加快了数据量、种类和速度的变化速度数据标准化程度低、质量要求高数据总价值高,成本高,但是价值密度低以及,如何保护它?从新的架构发展趋势来看,需要数据治理和目录支撑 数据治理和目录是 Data Fabric 的关键要求该框架的一些关键构建块是数据治理、数据目录、元数据和数据市场Data Fabric 本质上是一种元数据驱动的方式 Data Fabric的6种核心能力增强数据目录语义知识图谱主动元数据推荐引擎数据准备和数据交付数据编排和DataOps从新的架构发展趋势来看,需要数据治理和目录支撑 数据治理是Data Mesh的基础原则之一 Data Mesh需要平衡:域需要
3、自主操作,但在需要时相互协作 实现这一目标的关键原则:权力下放和自我主权在领域层面管理数据质量自动化执行,减少手动操作一些跨领域的标准化以实现互操作性 数据网格声称需要一种新的联邦数据治理范式:传统的数据治理过于集中,扼杀了创新和变革不能满足其数据产品客户的需求,因为主要关注操作数据 元数据在成功实施 DataOps 方面发挥着关键作用通过数据发现和数据血缘建立事实来源自动化数据管道帮助评估数据质量促进协作和沟通帮助遵守数据隐私法规从新的架构发展趋势来看,需要数据治理和目录支撑向客户交付分析(价值链)需要来自数据组织中的多个组的贡献主要包括数据目录、职责分工、协作机制、工作流程、数据百科等Da
4、taFunSummitDataFunSummit#202420240202元数据驱动的数据治理案例元数据驱动的数据治理案例数据变更治理 数据变更管理和效率的数据血缘关系随着数据环境的扩展,组织面临着无数挑战,其中变更管理是一个突出的问题通过了解数据流,可以快速适应变化、降低风险并做出明智的决策数据血缘关系的价值在于它为识别和修复数据流程中的问题提供的洞察能力量化和自动化数据治理数据资产管理指标体系数据资产管理指标体系元数据捕获元数据捕获数据治理智能数据治理智能驱动治理驱动治理&价值体现价值体现智能数据治理DataFunSummitDataFunSummit#202420240303未来展望未来
5、展望元数据驱动的未来展望实例:元数据驱动的数据工程(灵活性、可维护性、可复用)#Define the metadata for the CSV filecsv_metadata=file_path:/path/to/csv/file.csv,header:True,delimiter:,schema:StructType(StructField(id,IntegerType(),True),)#Define the metadata for the SQL Server tablesql_metadata=table_name:dbo.my_table,#Create a SparkSessi
6、onspark=SparkSession.builder.appName(CSV to SQL Server).getOrCreate()#Read the CSV file into a DataFramedf=spark.read .format(csv).option(header,csv_metadataheader)#Create a connection to the SQL Server databaseconn_str=#Write the DataFrame