《中国电子技术标准化研究院:知识图谱标准化白皮书(2019)(200页).pdf》由会员分享,可在线阅读,更多相关《中国电子技术标准化研究院:知识图谱标准化白皮书(2019)(200页).pdf(200页珍藏版)》请在三个皮匠报告上搜索。
1、知识图谱标准化白皮书 I 主编单位:中国电子技术标准化研究院 二零一九年八月 知识图谱标准化白皮书 (2019版) II 中国电子技术标准化研究院 牵头编写单位: 中国电子技术标准化研究院 联合编写单位: 第一章 背景介绍 北京京航计算通讯研究所 南华大学 中电科大数据研究院有限公司 第二章 知识图谱需求 联想(北京)有限公司 成都数联铭品科技有限公司 阿里巴巴网络技术有限公司 上海思贤信息技术股份有限公司 创新工场人工智能工程院 南华大学 南京柯基数据科技有限公司 中车株洲电力机车研究所有限公司 上海交通大学 第三章 知识图谱推动条件和驱动因素 中电科大数据研究院有限公司 阿里巴
2、巴网络技术有限公司 上海思贤信息技术股份有限公司 创新工场人工智能工程院 中国电子科技集团公司第二十八研究所 成都数联铭品科技有限公司 北京京航计算通讯研究所 湖北畅云时讯软件技术有限公司 III 中国电子技术标准化研究院 中车株洲电力机车研究所有限公司 南华大学 上海交通大学 阿里云计算有限公司 第四章 知识图谱主要技术 南华大学 中电科大数据研究院有限公司 东软集团股份有限公司 联想(北京)有限公司 星环信息科技(上海)有限公司 成都数联铭品科技有限公司 阿里巴巴网络技术有限公司 上海思贤信息技术股份有限公司 创新工场人工智能工程院 南京柯基数据科技有限公司 拓尔思信息技术股份
3、有限公司 天津大学 上海交通大学 第五章 知识图谱应用 中电科大数据研究院有限公司 东软集团股份有限公司 联想(北京)有限公司 星环信息科技(上海)有限公司 南华大学 成都数联铭品科技有限公司 阿里巴巴网络技术有限公司 上海思贤信息技术股份有限公司 IV 中国电子技术标准化研究院 创新工场人工智能工程院 南京柯基数据科技有限公司 拓尔思信息技术股份有限公司 北京京航计算通讯研究所 湖北畅云时讯软件技术有限公司 中车株洲电力机车研究所有限公司 中国电子科技集团公司第二十八研究所 京东集团 北京欧拉认知智能科技有限公司 上海交通大学 北京三快在线科技有限公司(美团点评集团) 第六章 知
4、识图谱存在的挑战 中电科大数据研究院有限公司 东软集团股份有限公司 南京柯基数据科技有限公司 联想(北京)有限公司 星环信息科技(上海)有限公司 创新工场人工智能工程院 成都数联铭品科技有限公司 第七章 知识图谱标准化现状与需求 中电科大数据研究院有限公司 成都数联铭品科技有限公司 第八章 结论与展望 中电科大数据研究院有限公司 南京柯基数据科技有限公司 V 中国电子技术标准化研究院 编写组成员 中国电子技术标准化研究院 郭韦楠韦韦韦韦莎韦韦李瑞琪韦韦李韦佳韦韦张韦欣韦韦 夏娣娜韦韦马原野韦韦何宏宏韦韦程雨航韦韦纪婷钰 中电科大数据研究院有限公司 曹韦扬韦韦程韦序韦韦王韦进韦韦张婧
5、慧韦韦蔡惠民韦韦 邹丽华韦韦阚丹会 东软集团股份有限公司 赵耕弘韦韦汤一凡韦韦蔡韦巍韦韦崔朝辉 联想(北京)有限公司 杨韦帆韦韦范雪琴韦韦邓人菠韦韦陶宏芝 南华大学 刘永彬韦韦欧阳纯萍韦罗凌云阳小华韦韦万亚平 星环信息科技(上海)有限公司 杨一帆韦韦宋群豪韦韦李逸安韦磊韦韦朱哲伟 上海思贤信息技术股份有限公司 王韦莹韦韦邱梦娟何志亮韦韦安自珍 成都数联铭品科技有限公司 任韦渝查琳韦韦岳韦冰韦韦黄韦蓉 阿里巴巴网络技术有限公司 胡宁王韦昊韦韦戴韦健韦韦杨勇华 南京柯基数据科技有限公司 漆桂林韦韦吴韦刚韦韦王虎斌 创新工场人工智能工程院 王博宇韦韦程正涛 上海交通大学 金耀辉 VI 中
6、国电子技术标准化研究院 拓尔思信息技术股份有限公司 王亚强韦韦岳韦松 北京京航计算通讯研究所 王凤敏韦韦白韦洋韦韦顾楠希 中车株洲电力机车研究所有限公司 张慧源韦韦李韦晨韦韦熊敏君 中国电子科技集团公司第二十八研究所 张韦超韦韦周韦颖 湖北畅云时讯软件技术有限公司 袁韦野韦韦陈韦榴 京东集团 赵韦楠 阿里云计算有限公司 李龑翔 北京欧拉认知智能科技有限公司 王韦涛韦韦王绪刚 天津大学 刘安安 北京三快在线科技有限公司(美团点评集团) 万峻辰 编辑组成员 李瑞琪韦韦王韦进韦韦张韦欣 VII 中国电子技术标准化研究院 第一章 背景介绍 1 一、知识图谱的起源与发展1 二、知
7、识图谱的定义5 三、白皮书范围6 四、白皮书概述7 第二章 知识图谱需求 9 一、公共安全9 二、数字经济 10 三、金融科技 12 四、资源优化 15 五、科学研究 16 六、制造业转型 18 七、公众健康 19 八、人文发展 21 九、政府管理 23 第三章 知识图谱推动条件和驱动因素 27 一、推动条件 27 二、驱动因素 36 目 录 VIII 中国电子技术标准化研究院 第四章 知识图谱的主要技术 47 一、知识获取 47 二、知识表示 52 三、知识存储 57 四、知识融合 6
8、3 五、知识建模 68 六、知识计算 71 七、知识运维 80 第五章 知识图谱应用 87 一、智慧金融 87 二、智慧医疗 94 三、智能制造 99 四、智慧教育104 五、智慧政务108 六、智慧司法112 七、智慧交通117 八、智能电网121 九、智能公安125 十、智慧农业130 十一、社交网络133 十二、新零售136 十三、智慧外交141 IX 中国电子技术标准化研究院 十四、智慧城建143 十五、其他147 第六章 知识图谱存在的挑战 149 一、数据相关的挑战149 二、算法相关的挑战150 三、基础知识库相关的挑战154 四、
9、开发工具相关的挑战155 五、隐私、安全和伦理相关的挑战157 六、测试认证相关的挑战160 七、商业模式相关的挑战162 八、人才相关的挑战164 第七章 知识图谱的标准化现状与需求 167 一、知识图谱标准化现状167 二、知识图谱标准体系170 三、知识图谱标准化需求175 第八章 结论与展望 179 一、趋势展望179 二、支持与监管政策相关建议180 三、技术开发与应用相关建议182 X 中国电子技术标准化研究院 图目录 图1.1知识图谱发展历史1 图1.2人工智能发展过程中数据关联的必要性4 图1.3知识图谱标准化白皮书整体结构7 图
10、2.1我国数字经济发展情况 11 图2.2金融生态的金融科技要素分布 13 图3.1全球数据总量预测2016-2025年 29 图3.2全球数据圈规模 33 图3.3全球计算机视觉行业投资趋势 44 图4.1知识图谱技术架构图 47 图4.2知识获取示意图 48 图4.3知识图谱的向量表示 53 图4.4TransE模型 55 图4.5带条件损失度量的KR-EAR方法 55 图4.6知识存储方式 58 图4.7属性图结构 59 图4.8普通图与超图 60 图4.9关系数据库的使用热度趋势 61 图4.10基于图模型数据库的使用热度趋势 62 图4.11知识融合概念分解
11、 64 图4.12自顶向下的构建方法 68 XI 中国电子技术标准化研究院 图4.13自底向上的构建方法 68 图4.14手工建模方式 69 图4.15半自动建模方式 70 图4.16知识计算概念 72 图4.17图信息检索示例 73 图4.18图特征统计示例 74 图4.19关联分析计算示例 75 图4.20异常检测示例 76 图4.21知识推理示例 78 图4.22知识运维 81 图4.23数据从消息队列导入图谱 81 图4.
12、24利用工作流引擎定时更新图谱 82 图4.25知识容灾备份 84 图5.1智慧金融全景图 87 图5.2智慧金融知识图谱构建 88 图5.3知识图谱在智慧金融中的应用 89 图5.4基于知识图谱的个人信用反欺诈应用 90 图5.5基于知识图谱的产业链分析 91 图5.6营销流程图 92 图5.7风控流程图 93 图5.8基于知识图谱的医疗应用系统 94 图5.9医疗知识图谱支撑智慧医疗应用 95 图5.10炼油化工产业链示意图 100 XII 中国电子技术标准化研究院 图5.11炼化过程影响因子分析(局部) 100 图5.12钢铁产业的流程图 102 图5
13、.13设备制造商全数据链整合示例 103 图5.14知识图谱在智慧教育中的应用示意图 104 图5.15基于知识图谱的学习成效分析示意图 107 图5.16智能校园管理系统架构图 108 图5.17基于知识图谱的智慧政务全景图 109 图5.18基于知识图谱的政策公文智能应用 110 图5.19医保审计知识图谱 111 图5.20政务服务审批系统运行流程 112 图5.21知识图谱在智慧司法中的应用 113 图5.22司法知识图谱的构建 114 图5.23文书生成流程 116 图5.24智慧调节流程图 116 图5.25智慧交通中知识图谱应用框架 117 图5.26“智慧交通系统”应用分类 1
14、18 图5.27利用知识图谱构建人脸天网的流程图 118 图5.28人、车识别与标签实例 119 图5.29路径规划实例 119 图5.30城市交通知识图谱 120 图5.31知识图谱在智能电网中的应用分类 122 图5.32智能客服问题系统的知识检索架构 123 图5.33知识图谱智能搜索视图 124 XIII 中国电子技术标准化研究院 图5.34设备故障检测知识图谱示意图 125 图5.35智能公安全景图 126 图5.36基于公安知识图谱的应用分类图 127 图5.37基于知识图谱产品进行犯罪分析的案例图 128 图5.38基于知识图谱的农业信息检索 131 图5.39农业病
15、虫害知识问答系统架构图 132 图5.40苹果产业实体关联结构图 133 图5.41知识图谱在餐饮娱乐中的应用示例 135 图5.42基于知识图谱的智能检索结果示例 136 图5.43电商知识图谱示意图 137 图5.44阿里巴巴电商认知图谱概览 138 表5.1认知图谱关系举例(部分)139 图5.45手机淘宝搜索框下搜索词提示 139 图5.46手机淘宝首页猜你喜欢主题卡片推荐 140 图5.47国家间关系分析的一般流程 141 图5.48Palantir系统锁定嫌疑人分析功能界面 142 图5.49智慧城建结构概念图 144 图5.50人工承载力知识图谱示意图 145 图5.51城市市政
16、公用设施知识图谱 146 图6.1美国伦斯勒理工学院知识图谱测评系统架构图160 图7.1知识表示关键技术标准168 图7.2知识图谱标准体系结构图 171 图7.3知识图谱标准体系框架173 XIV 中国电子技术标准化研究院 1 中国电子技术标准化研究院 第一章 背景介绍 一、知识图谱的起源与发展 (一)知识图谱的发展历史 知识图谱始于20世纪50年代,至今大致分为三个发展阶段:第一阶段 (1955年1977年)是知识图谱的起源阶段,在这一阶段中引文网络分析 开始成为一种研究当代科学发展脉络的常用方法;第二阶段(1977年-2012 年)是知识图谱的发展阶段,语义网得
17、到快速发展,“知识本体”的研究 开始成为计算机科学的一个重要领域,知识图谱吸收了语义网、本体在知 识组织和表达方面的理念,使得知识更易于在计算机之间和计算机与人之 间交换、流通和加工;第三阶段(2012年至今)是知识图谱繁荣阶段, 2012年谷歌提出Google Knowledge Graph,知识图谱正式得名,谷歌通过知 识图谱技术改善了搜索引擎性能。在人工智能的蓬勃发展下,知识图谱涉 及到的知识抽取、表示、融合、推理、问答等关键问题得到一定程度的解 决和突破,知识图谱成为知识服务领域的一个新热点,受到国内外学者和 工业界广泛关注。知识图谱具体的发展历程如图 1.1 所示。 图1
18、.1 知识图谱发展历史 知识图谱标准化白皮书 2 中国电子技术标准化研究院 起源阶段(1955年1977年):1955年,加菲尔德提出了将引文 索引应用于检索文献的思想。1965年,普赖斯在Networks of Scientific Papers一文中指出,引证网络-科学文献之间的引证关系,类似于当代 科学发展的“地形图”,从此分析引文网络开始成为一种研究当代科学 发展脉络的常用方法,进而形成了知识图谱的概念。奎林(J. R. Quillian)于 1968年提出语义网络,最初作为人类联想记忆的一个明显公理模型提出, 随后在AI中用于自然语言理解,表示命题信息,语义网
19、络是一种以网络格 式表达人类知识构造的形式,是人工智能程序运用的表示方式之一。 发展阶段(1977年-2012年):1977年,在第五届国际人工智能会议 上,美国计算机科学家B.A. Feigenbaum首次提出知识工程的概念,知识 工程是通过存储现存的知识来实现对用户的提问进行求解的系统,其中最 典型和成功的知识工程的应用是基于规则的专家系统,此后,以专家系 统为代表的知识库系统开始被广泛研究和应用。1991年,美国计算机专 家尼彻斯(R. Niches)等人在完成美国国防部高级研究计划局(Defense Advanced Research Projects Agency, 简称
20、DARPA)关于知识共享的科研项 目中,提出了一种构建智能系统的新思想,该智能系统由两个部分组成, 一个部分是“知识本体”(ontologies),另一部分是“问题求解方法” (Problem Solving Methods,简称PSMs),知识本体是知识库的核心,涉 及特定领域共有的知识结构,是静态的知识;后者(PSMs)涉及在相应 领域的推理知识,是动态的知识,PSMs使用知识本体中的静态知识进行 动态推理。自1998年万维网之父Tim Berners-Lee提出语义网,同时随着链 接开放数据(Linked Open Data)的规模激增,互联网上散落了越来越多的知 识元数据。2002年,
21、机构知识库的概念被提出,知识表示和知识组织开始 被深入研究,并广泛应用到各机构单位的资料整理工作中。 繁荣阶段(2012年至今):21世纪,随着互联网的蓬勃发展,信 息量呈爆炸式增长以及搜索引擎的出现,人们开始渴望更加快速、准确地 知识图谱标准化白皮书 3 中国电子技术标准化研究院 获取所需的信息。知识图谱强调语义检索能力,关键技术包括从互联网的 网页中抽取实体、属性及关系,旨在解决自动问答、个性化推荐和智能信 息检索等方面的问题。目前,知识图谱技术正逐渐改变现有的信息检索 方式,如谷歌、百度等主流搜索引擎都在采用知识图谱技术提供信息检 索,一方面通过推理实现概念检索(相对于现有的
22、字符串模糊匹配方式而 言);另一方面以图形化方式向用户展示经过分类整理的结构化知识,从 而使人们从人工过滤网页寻找答案的模式中解脱出来。 (二)知识图谱的重要性 哲学家柏拉图把知识定义为“Justified True Belief”,即知识需要 满足三个核心要素:合理性(Justified)、真实性(True)、被相信 (Believed)。简单而言,知识是人类通过观察、学习和思考有关客观世 界的各种现象而获得和总结出的所有事实(Facts)、概念(Concepts)、 规则或原则(Rules RongrongJi;PengCui;QionghaiDai;GangHua.Hyperspectr
23、alImage ClassificationThroughBilayerGraph-BasedLearningEB/OL.https:/ieeexplore.ieee.org/ abstract/document/6804696,2014-7. 知识图谱标准化白皮书 61 中国电子技术标准化研究院 (三)知识存储基础工具 知识图谱的存储并不依赖特定的底层结构,一般的做法是按数据和应 用的需求采用不同的底层存储,甚至可以基于现有关系数据库或NoSQL数 据库进行构建。关系型数据库是典型的基于表结构的存储,图数据库是典 型的基于图结构的存储。 1、关系型数据库 关系数据库通过属性对现实
24、世界中的事物进行描述,采用关系模型来 组织数据的数据库,其以行和列的形式存储数据。一行一个记录,一列表 示一个属性。用户通过查询来检索数据库中的数据,而查询是一个用于限 定数据库中某些区域的执行代码。根据DB-Engines的统计数据,从2013年 到2019年,Oracle、MySQL和Microsoft SQL Server稳居关系型数据库的前 三甲,如图4.9所示。 图4.9关系数据库的使用热度趋势 (数据来源:https:/db-) 知识图谱标准化白皮书 62 中国电子技术标准化研究院 2、图数据库 图数据库源起欧拉和图理论(graph theory),也可称为面向/基于图
25、的 数据库,图数据库的基本含义是以“图”这种数据结构存储和查询数据。 它的数据模型主要是以节点和关系(边)来体现,也可处理键值对,优点是 快速解决复杂的关系问题。图数据库是一种非关系型数据库,支持对图结 构进行查询、增加、删除、更新等操作。相对传统的关系型数据库,查询 速度快、操作简单、能提供更为丰富的关系展现方式。根据DB-Engines的 统计数据,列举了一些近几年来常用图数据库的使用热度趋势曲线,如图 4.10所示。 图4.10 基于图模型数据库的使用热度趋势 (数据来源:https:/db-) (四)技术发展趋势 知识存储过程完成对各类知识图谱组成元素的存储,以支持对大规 模图数据的有
26、效管理,满足快速查询、读取、写入的操作,为知识计算等 应用提供服务支撑。针对知识图谱的分布式存储、知识存储的伸缩性和灵 活性,以及基于LOD的知识存储,是技术发展的重点方向,同时,超图 知识图谱标准化白皮书 63 中国电子技术标准化研究院 (Hyper Graph)也是未来知识存储的研究热点。知识存储相关技术发展趋 势包括以下几个方面: 1、基于RDF知识表示的分布式存储 随着互联网及各领域数据的持续积累,各个领域方向的知识图谱数量 与规模日益增长,单机系统的数据存储能力难以应对知识图谱数据的大规 模增长。同时,基于资源描述框架(RDF)存储的知识图谱更便于知识推 理和计算,符合知
27、识图谱应用的未来需求。但RDF存储模式所含有大量三 元组的数据,使其索引效率与更新维护成本大于其它图存储模式。因此, 未来知识存储的一种研究趋势为如何利用分布式数据库系统来解决RDF数 据的大规模增长问题。 2、设计高适应性的知识存储 随着知识图谱的规模越来越庞大、知识的表示方式越来越复杂,这对 目前的知识存储方式提出了挑战。如何设计出可支持对复杂节点的定制、 具有良好可伸缩性和灵活性的知识存储模式,满足复杂的查询、读取、计 算和应用需求成为面向知识图谱的知识存储的迫切要求。 3、基于LOD(Linked Open Data)的知识存储 由于知识表示RDF模型的通用性和灵活性,知识图谱供应方越
28、来越 倾向将自身的知识图谱数据表示成RDF格式并发布到互联网上。通过URI 相互链接起来,这些发布在互联网上的RDF数据共同构成了一个覆盖整个 互联网的庞大知识图谱。为了让这个庞大知识图谱网络更加丰富和完善, W3C积极推进LOD项目。LOD已成功将数百个RDF数据集相互链接在一起 以增强数据的可用性。 4、超图的进一步研究和应用 超图所拥有的简单图无可比拟的复杂关系表示方式,能更加全面详 尽地描述业务、还原场景。但目前对超图的可视化表示方法还没有理想方 案,对于超图的划分方式、深度学习及应用,大部分仍处于实验室研究阶 知识图谱标准化白皮书 64 中国电子技术标准化研究院 段。推广
29、到各领域进行工程化运用,无论在计算效率和成本上都存在较大 问题。但随着知识图谱的普及,未来对于复杂关系的表示的需求,将逐步 增多,超图技术的研究和应用探索将是知识图谱的下一个方向。 四、知识融合 (一)知识融合概述 知识融合的概念最早出现在1983年发表的文献HOLSAPPLE C,et al,1983 1中,并在20世纪九十年代得到研究者的广泛关注。而另一种知识 融合的定义是指对来自多源的不同概念、上下文和不同表达等信息进行融 合的过程维基百科。A.Smirnov,et al,2002 2认为知识融合的目标是产 生新的知识,是对松耦合来源中的知识进行集成,构成一个合成的资源, 用
30、来补充不完全的知识和获取新知识。唐晓波,魏巍,et al,2015 3在总 结众多知识融合概念的基础上认为知识融合是知识组织与信息融合的交叉 学科,它面向需求和创新,通过对众多分散、异构资源上知识的获取、匹 配、集成、挖掘等处理,获取隐含的或有价值的新知识,同时优化知识的 结构和内涵,提供知识服务。 (二)知识融合过程 知识融合是一个不断发展变化的概念,尽管以往研究人员的具体表述不 同、所站角度不同、强调的侧重点不同,但这些研究成果中还是存在很多共 1HOLSAPPLEC,WHINSTON,ASoftwaretoolsforknowledgefusionJ Computerworld,1983
31、,17(15):1118 2SMINOVA,LEVASHOVAT,SHILOVNContext-basedknowledgefusionpatterns indecisionsupportsystemforemergencyresponseC/Proceedingsofthe10th internationalISCAMConferenceKarlsruhe:KarlsruheInstituteofTechnology, 2013:597606. 3唐晓波,魏巍知识融合:大数据时代知识服务的增长点J,图书馆学研究,2015(5):9 14. 知识图谱标准化白皮书 65 中国电子技术
32、标准化研究院 性,这些共性反应了知识融合的固有特征,可以将知识融合与其他类似或相 近的概念区分开来。知识融合是面向知识服务和决策问题,以多源异构数据 为基础,在本体库和规则库的支持下,通过知识抽取和转换获得隐藏在数据 资源中的知识因子及其关联关系,进而在语义层次上组合、推理、创造出新 知识的过程,并且这个过程需要根据数据源的变化和用户反馈进行实时动态 调整。从流程角度对知识融合概念进行分解,如图4.11所示: 参数校正反馈评估 统一的知识表示形式 用户(应用问题) 融合结果 本体库 数据源 信息源 知识源 知识抽取 知识转换 知识 因子 知识 因子 知识 因子 知识 因子 融合算法 知识融合
33、规则库 图4.11 知识融合概念分解 (三)研究现状 知识融合从融合层面划分可以分为数据层知识融合与概念层知识融 合,数据层知识融合主要研究实体链接、实体消解,是面向知识图谱实例 层的知识融合;概念层知识融合主要研究本体对齐、跨语言融合等技术。 1、数据层知识融合技术 实体链接问题是数据层知识融合研究的主要任务,其核心是构建多类 型多模态上下文及知识的统一表示,并建模不同信息、不同证据之间的相 互交互,主要的实体链接方法有:基于实体知识的链接方法、基于篇章主 题的链接方法和融合实体知识与篇章主题的实体链接方法。 知识图谱标准化白皮书 66 中国电子技术标准化研究院 2、概念层知识融
34、合技术 概念层知识融合是对多个知识库或者信息源在概念层进行模式对齐 的过程。本体对齐或者本体匹配是概念层知识融合主要研究任务,是指确 定本体概念之间映射关系的过程。本体匹配可以分为单语言本体匹配和跨 语言本体匹配,单语言本体匹配是指同一自然语言中本体的对齐映射,跨 语言本体匹配是指从两个或多个独立的语言本体中建立本体之间映射关系 的过程 1。本体匹配的研究核心就在于如何通过本体概念之间的相似性度 量,发现异构本体间的匹配关系,本体匹配基本方法包括基于结构的方 法、基于实例的方法、基于语言学的匹配算法、基于文本的匹配算法和基 于已知本体实体联结的匹配算法。 3、跨语言知识融合技术 在大数据时代背
35、景下,如何将跨语言的知识图谱进行对齐与融合,实 现知识的全球共享,为跨语言知识服务提供便利,是知识图谱进一步研究 的过程中需要解决的问题 2。跨语言知识图谱研究的目的是构建一个包含 当前重要知识库的大规模跨语言知识库,提高不同语言之间链接数据的国 际化以及知识共享全球化,便于跨语言信息检索、机器翻译和跨语言知识 问答等跨语言处理任务的研究与应用。Hailong Jin,et al,2019 3构建了一 个有42万中英跨语言实体链接的双语言知识图谱(XLORE2),自动化融合 了来自维基百科、百度百科和互动百科的信息。 4、现有知识融合工具 现有的知识融合工具包括:Falcon-AO、YAM+、
36、Dedupe等。以 Falcon-AO为例,其是由南京大学计算机软件新技术国家重点实验室开发 1BoF,BrennanR,OSullivanD.Aconfigurabletranslation-basedcross-lingual ontologymappingsystemtoadjustmappingoutcomesJ.SocialScienceElectronic Publishing,2012,15(6):15-36. 2费宇星.跨语言知识图谱的对齐与融合研究D.哈尔滨工业大学,2018. 3JinH,LiC,ZhangJ,etal.XLORE2:Large-scaleCross-lin
37、gualKnowledgeGraph ConstructionandApplicationJ.DataIntelligence,2019,1(1):77-98. 知识图谱标准化白皮书 67 中国电子技术标准化研究院 的一个基于Java的自动本体匹配系统,已经成为RDF(S)和OWL所表达的 Web本体相匹配的一种实用和流行的选择。Falcon-AO系统采用了相似度 组合策略,首先使用PMO进行分而治之,然后使用语言学算法(V-Doc、 I-Sub)进行处理,然后使用结构学算法(GMO)接收前两者结果再做处 理,最后连通前面两者的输出使用贪心算法进行选取。 (四)技术发展趋势 尽管知
38、识融合已经在学术和工业应用中取得了非常显著的成效,然 而随着网络社会数据特征、跨语言融合、知识规模增加等带来挑战越发紧 迫,针对短文本及资源缺乏环境下的实体链接方法、融合先验知识的深度 学习端到端实体链接方法、大规模本体的高效匹配方法将成为未来研究的 重要趋势。 1、短文本及资源缺乏环境下的实体链接方法 传统的实体链接任务主要是针对长文档,长文档拥有在写的上下文信 息能辅助实体的歧义消解并完成链接。而由于日常生活中人们在社交网络 中常常会产生大量短文本数据,相比之下,短文本的实体链接存在口语化 严重、短文本上下文语境不丰富等巨大挑战,因而面向短文本的实体链接 方法研究将会成为未来的研究热点。另
39、外目前绝大部分的实体链接模型依 赖于有监督模型,需要大量标签数据集训练来达到实用目的。因此短文本 及资源缺乏环境下,基于无监督/半监督和迁移学习的实体链接模型是解 决问题的关键。 2、融合先验知识的端到端深度学习实体链接方法 今年来,基于深度学习模型(如BiLSTM-CRF)在实体链接任务上取 得了较大的进展,同时展现出了巨大的应用潜力,然而基于深度学习的算 法训练需要大量标注数据集,缺少面向特定领域特点和任务的针对性设 计。另一方面当前实体链接方法易受到实体识别等前序过程的误差影响, 知识图谱标准化白皮书 68 中国电子技术标准化研究院 因此结合先验知识训练端到端深度学习实体链接
40、模型成为未来的一大研究 趋势。针对这个问题,一方面,当前许多算法尝试已经证明结合先验知识 的思路在实体链接任务中的有效性,如在深度学习模型中增加句法结构、 语言学知识、特定领域任务约束、现有知识库知识和特征结构等,如何更 好的结合有效利用这些先验知识是提升实体链接算法性能的有效手段。同 时设计基于端到端的深度学习模型将有助于降低实体链接过程中的误差传 播效应,提高实体链接准确度。 3、大规模本体的高效匹配方法 随着当前各类型知识库的出现和知识规模的快速增长,而由于通常 本体匹配的计算复杂度与本体规模成正比,因此大规模跨语言本体匹配成 为知识库融合的重大挑战,主要面临的挑战有:大规模本体匹配的快
41、速 并行计算问题和人机协同匹配问题。针对这个问题主要的思路有:研 究基于分布式处理技术的大规模本体匹配分布式处理算法,如研究利用 MapReduce、GPU等技术的并行匹配算法,提高匹配效率;研究利用现 有本体匹配结果实现潜在本体匹配的方法,同时利用启发式相似度计算方 法提高计算效率;通过对实体匹配进行预剪枝,预先过滤不匹配的实体 对,避免本体之间一对一的相似度计算。 五、知识建模 (一)知识建模概述 知识建模是指建立知识图谱的数据模型,即采用什么样的方式来表 达知识,构建一个本体模型对知识进行描述。在本体模型中需要构建本体 的概念,属性以及概念之间的关系。知识建模的过程是知识图谱构建的基 础
42、,高质量的数据模型能避免许多不必要、重复性的知识获取工作,有效 提高知识图谱构建的效率,降低领域数据融合的成本。不同领域的知识具 知识图谱标准化白皮书 69 中国电子技术标准化研究院 有不同的数据特点,可分别构建不同的本体模型。 知识建模一般有自顶向下和自底向上两种途径:1自顶向下的方法 (如图4.12所示)是指在构建知识图谱时首先定义数据模式即本体,一般 通过领域专家人工编制。从最顶层的概念开始定义,然后逐步细化,形成 结构良好的分类层次结构。2自底向上的方法则相反(如图4.13所示), 首先对现有实体进行归纳组织,形成底层的概念,再逐步往上抽象形成上 层的概念。自底向上的方法则
43、多用于开放域知识图普的本体构建,因为开 放的世界太过复杂,用自顶向下的方法无法考虑周全,且随着世界变化, 对应的概念还在增长,自底向上的方法则可满足概念不断增长的需要。 图4.12 自顶向下的构建方法 图4.13 自底向上的构建方法 (二)知识建模方法 知识建模目前的实际操作过程,可分为手工建模方式和半自动建模方 式 1。手工建模方式适用于对知识建模容量小、质量高的要求,但是无法 满足大规模的知构建,是一个耗时、昂贵、需要专业知识的任务;混合方 式将自然语言处理与手工方式结合,适于规模大且语义复杂的
44、图谱。 1、手工建模方式 手工建模方式过程主要可以分为以下的六个步骤:明确领域本体及任 1胡兆芹.本体与知识组织M.中国文史出版社:北京,2014:63. 知识图谱标准化白皮书 70 中国电子技术标准化研究院 务、模型复用、列出本体涉及领域中的元素、明确分类体系、定义属性及 关系、定义约束条件。在人工建模的过程中,以上的六个步骤并不是一一 顺序执行的,可以根据知识建模的具体需求,组合其中的步骤达到知识建 模的目的。下面分别对这些步骤作详细的介绍,如图4.14所示。 图4.14 手工建模方式 2、半自动建模方式 半自动建模方式先通过自动方式获取知识图谱,然后进行大量的人工 干预过程,
45、如图4.15所示。运用自然语言处理技术先自动建模的方法可以 分为三大类 1:基于结构化数据的知识建模方法,基于半结构化数据的知 识建模方法和基于非结构化数据的知识建模方法。近年来,对于非结构化 数据的知识建模方法研究较多,涌现出一批优秀的基于非结构化数据的知 识建模方法的高水平研究成果。 1Al-ArfajA,Al-SalmanA.Ontologyconstructionfromtext:challengesandtrendsJ. InternationalJournalofArtificialIntelligenceandExpertSystems(IJAE),2015,6(2):15-26
46、. 图4.15 半自动建模方式 知识图谱标准化白皮书 71 中国电子技术标准化研究院 (三)知识建模评价 对知识建模质量评价也是知识建模的重要组成部分,通常与实体对 齐任务一起进行的。质量评价的作用在于可以对知识模型的可信度进行量 化,通过舍弃置信度较低的知识来保障知识库的质量。一个合理的本体模 型宜满足以下标准: 明确性和客观性:用自然语言对所定义术语给出明确的、客观的 语义定义。 完全性:定义是完整的,完全能表达所描述领域内术语的含义。 一致性:正确一致地展示数据、对象和信息,由术语得出的推论 与术语本身含义不会产生矛盾。 最大单
47、调可扩展性:添加通用或专用的术语时,不需要修改己有 的内容,便于知识图谱扩展。 最小承诺:尽可能少的约束,指本体约定应该最小,对建模对象 尽可能少的约束。 易用性:有效地支撑业务的分析和决策需求。 (四)技术发展趋势 知识建模核心解决了采用什么样的形式高效组织和表达知识的问题,偏 向于知识建模的方法论,在未来的发展趋势中,将会解决知识建模的规范化 和标准化。同时随着大数据时代的到来,知识建模将会朝着对大规模数据的 进行建模的方向发展,届时多人在线编辑,并且实时更新知识建模将成为可 能。针对传统人工知识建模耗时、耗力、效率低下等弊端,知识建模可与自 动语义处理算法进行结合
48、,实现全自动建模方式,避免人工干预和操作;另 外,快速集成现有的结构化知识模型,支撑起事件、时序等复杂知识形式的 表达模式,建立功能更加完善、表达更加强大的知识模型。 知识图谱标准化白皮书 72 中国电子技术标准化研究院 六、知识计算 (一)知识计算概述 随着知识图谱技术及应用的不断发展,图谱质量和知识完备性成为 影响知识图谱应用的两大重要难题,以图谱质量提升、潜在关系挖掘与补 全、知识统计与知识推理作为主要研究内容的知识计算成为知识图谱应用 的重要研究方向。知识计算是基于已构建的知识图谱进行能力输出的过 程,是知识图谱能力输出的主要方式。知识计算概念内涵如图4.16所示, 主要包
49、括知识统计与图挖掘、知识推理两大部分内容,知识统计与图挖掘 重点研究的是知识查询、指标统计和图挖掘;知识推理重点研究的是基于 图谱的逻辑推理算法,主要包括基于符号的推理和基于统计的推理。 图4.16 知识计算概念 知识图谱标准化白皮书 73 中国电子技术标准化研究院 知识计算的概念中明确了以下几个层面的问题: (1)知识计算是针对已构建的知识图谱所存在的问题:不完备性和 存在错误信息,在此基础上通过将知识统计与图挖掘、知识推理等方法与 传统应用相结合进行能力输出,为传统应用形态进行赋能,进而提高知识 的完备性和扩大知识的覆盖面。 (2)知识计算中两种具有代表性的能力:知识统计与图挖
50、掘、知识 推理。知识统计和图挖掘的方法是基于图特征的算法来进行社区计算、相 似子图计算、链接预测、不一致检测等;知识推理的目标在于从给定知识 图谱中推导出新的实体、关系和属性。通过这两种能力实现对已有图谱的 知识补全、知识纠错、知识更新、知识链接等功能。在此基础上,知识计 算的能力输出可应用于用户精准画像、决策数据、辅助决策意见、智能问 答/搜索等方面。 (二)研究现状 知识图谱的应用大多基于对复杂网络的大规模计算,计算的结果或以 在线服务,或以离线结果的形式提供给应用者。知识计算的能力输出方法 包括:知识统计与图挖掘、知识推理。 1、知识统计与图挖掘 知识统计与图挖掘是指基于图论的相关算法,
51、实现对知识图谱的基础 性查询、统计分析和图挖掘计算,主要包括:图查询检索、图特征统计、 关联分析、时序分析、节点分类、异常检测、预测推理等。 (1)图查询检索 图查询和检索是最常见的计算,常用于查询目标节点的n度关联方、 或者查询某子图结构,主要是以深度优先或广度优先等方式遍历网络,输 出关联节点或同构实例。图4.17为图信息检索示例。 知识图谱标准化白皮书 74 中国电子技术标准化研究院 图4.17 图信息检索示例 (2)图特征统计 图特征统计是指对图谱中单一节点、或多个节点的图特征以及属性特 征进行统计计算的过程,如图4.18所示。其中,单主体图特征包括出度、 入度、介度和中心度,出度表征某节点发出的边的多少,定义为统计节点 发出的关系总条数;入度表征某节点接收到的边的多少,定义为统计指向 该节点的关系总条数;介度表征某节点桥接作用的重要性;中心度表征