1、演讲人:杨生杰 基于基于GravitinoGravitino的的AIAI元数据管理元数据管理系统系统设计与实践设计与实践业务背景Bussiness Background01Work Challenge02生产实践Problem Solving Progress03总结和规划Summart&Planning04目 录CONTENTS系统设计业务背景B u s i n e s s B a c k g r o u n d业务增长带来数据规模的爆发增长2022年11月ChatGPT发布,为人工智能学术界和工业界带来了又一轮高光期。不论是大语言模型,自然语言处理,还是图像生成,个性化推荐系统,都开始了飞
2、速的进化。知乎也适时推出了和面壁智能合作自研的中文大语言模型知海图,以及在线AI产品知乎直达。产品蓬勃发展的背后,是迅速增长的数据规模和管理压力。57%43%存储空间占比存储空间占比表数据非表数据49%51%近近3 3月无访问数据月无访问数据占比占比表数据非表数据平台元数据管理现状和痛点1.数据来源多种多样,上层应用接入维护数据源的成本很高;2.对半结构化,非结构化数据缺少元信息,难以开展统一管理;3.缺乏中心化的统一元数据服务进行跨schema的统一审计、血缘追踪和权限管理;开源元数据管理工具对比 统一元数据勘探API服务;主要面向Hadoop生态;提供 rest interface和thr
3、ift interface;对HMS有优化 统一的元数据管理平台;支持多种数据源;支持数据发现,数据观测,数据治理;定时抓取缓存元数据,需通过其他手段保证强一致性;现代数据栈的元数据平台,解决元数据分担,数据孤岛,治理困难等问题;支持基于推送的架构收集元数据;统一的元数据管理平台;元数据变更可实时订阅;强调开放元数据标准,提供统一的元数据模型和API Lakehouse的数据与AI统一治理层;不仅管理表级元数据,还统一治理权限、血缘、审计等关键信息,实现单一信源(SSOT)Databricks绑定较深什么是GravitinoApache Gravitino is a high-performa
4、nce,geo-distributed,and federated metadata lake.By using a technical data calalog and metadata lake,you can manage access and perform data governance for all your data sources(including filestores,relational databases,and event streams)while safely using multiple engines like Spark,Trino or Flink on
5、 multiple formats on different cloud providers.为什么是Gravitino1.插件化设计支持多种数据源,包括半结构化非结构化数据源;2.提供统一视图来进行管理多数据源;3.支持统一的元数据管理等特性;4.标准化的接口,降低接入门槛;5.支持多种计算引擎;6.活跃的社区,不和特定厂商绑定;Fileset介绍映射底层存储的目录;支持自定义属性和打Tag;可以通过三级命名空间直接访问数据,而无需了解实际存储位置;支持多种存储协议;系统设计S y s t e m D e s i g nAI元数据管理系统1.基于Gravitino API,平台进行封装和拓展
6、;2.设计数据治理闭环;3.实现页面目录浏览:通过页面浏览器查看目录下的文件和文件夹,方便算法工程师排查问题;数据集详情页制定接入规范和各个团队沟通约定:不新增格式,让问题不再发散;平台主动做录入,提前踩坑;创建fileset添加目录唯一性校验;和机器学习平台等平台合作,批量录入存量目录;通过fsimage对业务目录做扫描,收集日期格式添加到系统枚举项中添加目录深度校验;生产实践P r o d u c t i o n P r a c t i c eHDFS存储治理治理流程:1.平台注册数据集,指定回收策略和转储策略