1、数据治理与大模型探索北京捷泰云际信息技术有限公司 郝苗北京捷泰云际信息技术有限公司简介所属领域:所属领域:大数据与云计算;主要研究方向:主要研究方向:将地理信息科学、大数据与遥感科学、人工智能等技术交叉融合,以多源异构大数据汇聚、治理与时多源异构大数据汇聚、治理与时空知识图谱空知识图谱为主要研究方向,不断发展数据治理、挖掘分析与时空知识图谱技术;办公地点:办公地点:总部位于北京,在武汉、成都、西安设有分支机构;企业资质:企业资质:国家级高新技术企业认证、中关村高新技术企业认证、ISO9001质量管理体系认证及ISO27001信息安全管理体系认证。主要业务领域目 录01 数据治理的必要性02 数
2、据治理技术路线03 知识图谱与大模型应用探索01 数据治理的必要性为什么要做数据治理?汇聚和整合汇聚和整合跨部门、跨领域、多源异构数据资源,进行数据清洗与治理数据清洗与治理,解决数据准确性与数据准确性与一致性一致性等问题,面向业务应用提供统一的数据底座统一的数据底座。为什么要做数据治理?将多来源的数据资源进行融合与联接融合与联接,采用面向对象的思想,构建“对象画像对象画像”,全面展示各个对象实体的基础信息、业务信息、空间形态、健康状况、管理状况、关系图谱等基础信息、业务信息、空间形态、健康状况、管理状况、关系图谱等,反映对象实体的全貌。为什么要做数据治理?为数据挖掘分析、二次开发、行业知识图谱
3、构建、智能分析与决策数据挖掘分析、二次开发、行业知识图谱构建、智能分析与决策打下坚实的基础。数据治理目标 通过数据治理,建立一个数据数据“可获取、可连接、可分析、可评价可获取、可连接、可分析、可评价”的数据底座。02 数据治理技术路线基于时空数据中台的数据治理体系数据存储体系数据存储体系解决异构数据如何存储、组织问题。数据汇聚体系数据汇聚体系解决多源、多时效场景下数据如何采集问题。数据治理体系数据治理体系解决全域数据质量、安全与开发等问题。数据服务体系数据服务体系解决高质量数据资产如何高效应用问题。数据治理实施步骤1.1.理数据理数据3.3.汇数据汇数据4.4.做治理做治理5.5.成资产成资产
4、6.6.享服务享服务2.2.建建模型模型数据开发人员数据开发人员成果阶段成果阶段数据治理阶段数据治理阶段时时数据建模数据建模/管理员管理员业务应用人员业务应用人员数据管理员数据管理员数据建模人员数据建模人员项目项目/产品产品/建模建模前期阶段前期阶段事事物物连接至平台理清数据源数据类型存储位置规划数据存储存储分层计算引擎机构/用户/角色分析业务实体数据分级分类数据建模概念模型逻辑模型元数据整理模型关系维护数据汇聚普通汇聚业务数据空间数据汇聚非结构化汇聚监测数据汇聚汇聚流程编排数据开发数据质检质检规则质检配置质检报告数据安全数据权限数据治理成果关系图谱资产目录资产地图全域检索数据分析数据服务业务
5、服务空间服务第三方服务数据分发/数据申领录入至平台平台中处理数据管理成果展示数据使用系统管理系统管理/初始化初始化数据标准数据标准数据汇聚数据汇聚数据治理数据治理资产中心资产中心/资源门户资源门户服务中心服务中心/资源门户资源门户人人理数据 数据现状分析与梳理更新频率要求?实时、天/小时更新的粒度:记录/表级掌握数据更新频率情况掌握数据更新频率情况0404所在的业务系统的业务流程情况?原始数据库的库表关系?当前数据质量情况是怎么样的?理清业务流程理清业务流程/数据质量情况数据质量情况0606数据在原始系统是以什么形态存储?是否允许直接连接数据源?数据库、文件库等识别数据源存储形态识别数据源存储
6、形态0202主要包括哪些种类的数据?数据的获取途径是什么?哪些是核心数据?摸清数据分类情况摸清数据分类情况0101数据的格式是什么?属于哪个主题域?数据库、txt、Excel、shp.归类数据类型归类数据类型0303定源:来自于哪些业务系统?不满足一数一源该如何处理?数据来源情况数据来源情况0505数据摸底数据摸底理数据 规划数据存储时空数据中台采用面向数据数据分层分层的逻辑存储模式,内置全量数据区、核心数据区全量数据区、核心数据区与主题数据区与主题数据区数据层级架构,分别面向于政企组织原始数据、实体对象建模融合数据以及主题计算分析数据,以实现政企组织的有效组有效组织、集约管理与统一维护织、集