《1肖杰宝_20250722.pdf》由会员分享,可在线阅读,更多相关《1肖杰宝_20250722.pdf(39页珍藏版)》请在三个皮匠报告上搜索。
1、演讲嘉宾:肖杰宝 小米软件研发工程师 Apache Gravitino Committer小米基于小米基于 Gravitino Gravitino 在在 Data/AI Data/AI 数据管数据管理和处理的实践理和处理的实践目录目录0 1数据体系的痛点0 2元数据中心建设0 3AI 时代面临的新挑战0 4Data/AI 统一元数据中心0 5非表格数据管理和处理实践0 6未来规划1数据体系的痛点2元数据中心建设3AI 时代面临的新挑战4Data/AI 统一元数据中心5非表格数据管理和处理实践目录目录1 数据体系的痛点1.1 数据管理的痛点 数据源类型多 管理分散 数据孤岛问题突出痛点之一1.1
2、 数据管理的痛点 无中心化管理能力 跨系统数据血缘缺失 数据不流通 审计追踪难痛点之二1.1 数据管理的痛点 无统一权限体系 授权和鉴权方式多样 使用方式复杂痛点之三1.2 数据处理的痛点计算引擎对接适配数据源低效,难度大数据源连接配置多,用户使用门槛高动态获取元数据能力缺失,变更和维护成本高1.2 数据处理的痛点2 元数据中心建设2.1 基于 Metacat 的统一元数据中心统一元数据抽象对接多引擎支持多数据源注册Catalog提供 SSOT 的统一元数据管理和审计能力01010202030304042.2 Metacat 与计算引擎对接计算引擎 统一对接 Metacat 统一三级结构访问表
3、格(catalog.db.name)统一接入 RangerMetacat 统一管理内部数据源 统一表格访问方式 统一接入自建权限系统2.2 计算引擎读写 SQL 示例SparkINSERT INTOdoris_prod_cluster.tmp.test_doris_tableSELECTid,name,product_sale_time,product_sale_count,product_sale_priceFROM hive_prod_cluster.tmp.test_hive_table;FlinkINSERT INTOiceberg_prod_cluster.tmp.test_iceb
4、erg_tableSELECTid,name,age,country,addressFROMtalos_prod_cluster.tmp.test_talos_stream;TrinoSELECT *FROMhive_prod_cluster.tmp.test_hive_table hive_tabJOINiceberg_prod_cluster.tmp.test_iceberg_table iceberg_tabON hive_tab.id=iceberg_tab.id2.3 权限体系构建实现:对用户屏蔽底层系统权限细节权限模型基于【用户操作权限】和【底层系统权限】两段,由 Workspac
5、e 连接Owner:拥有此空间Admin:管理此空间Dev:基于此空间进行数据开发Vistor:空间访客用户操作权限用户操作权限WorkspacekerberosAKSKuser:passwd底层系统权限底层系统权限(用户不可见用户不可见)空间私有账号资 源Hive TableTalos TopicDoris Table2.3 权限体系构建基于【自建权限服务】和【Ranger】完成 Metacat 元数据的授权和鉴权。3 AI 时代面临的新挑战3.1 数据管理新挑战挑战挑战 海量非表格数据价值凸显,大量原始文本、图片、视频数据未得到有效管理和利用非表格数据难识别和治理,存在安全隐私风险和隐性存
6、储成本高等问题Data/AI 资源管理体系割裂,分布在不同平台Metacat 生态不完善,支持的引擎和资源种类有限,并未彻底统一授权和鉴权体系3.2 数据处理新挑战海量原始的图片/视频/文本等非表格数据处理需求1 1非表格数据处理完整链路往往需要跨越多个存储、平台和团队2 2Python+Cloud Native 成为 AI 相关首选数据处理体系,传统 Hadoop 数据处理体系发展受限3 3挑战挑战4 Data/AI 统一元数据中心Data/AI 统一元数据中心-Apache Gravitino统一的元数据管理和治理 API对接多引擎和多数据源提供 SSOT 的统一元数据管理和审计能力统一的