1、图计算概念
当前,是大数据时代,图计算简单来讲就是研究在这些大量数据中,如何高效计算、存储并管理图数据等问题的领域。传统的关系型数据暴露出了建模缺陷、水平伸缩等问题,于是具有更强大表达能力的图数据受到业界极大的重视。如果把关系数据模型比作火车的话,那么现在的图数据建模可比作高铁。
图(Graph)是一种重要的数据结构,它由节点V(或称为顶点,即个体),与边E(即个体之间的联系)构成,我们一般将图表示为G(V,E)。图数据的典型例子有网页链接关系、社交网络、商品推荐等。对应互联网来说,可以把web网页看作顶点,页面之间的超链接关系作为边;对应社交网络来说,可以把用户看作顶点,用户之间建立的关系看作边。比如微信的社交网络,是由节点(个人、公众号)和边(关注、点赞)构成的图;淘宝的交易网络,是由节点(个人、商品)和边(购买、收藏)构成的图。
这样一来的话,抽象出来的图数据便可作为研究和商用的基础,由此探究出“世界上任意两个人之间的人脉距离”、“关键意见领袖”等。将这些应用到商业领域,其底层的运算往往是图相关的算法。比如图的最短路径算法可以做好友推荐,计算关系紧密程度;对图做PageRank可以用于传播影响力分析,找出问题的中心,做搜索引擎的网页排名;最小连通图可以识别洗钱或虚假交易等等。
图数据典型例子

2、图计算的特征
图计算技术解决了传统的计算模式下关联查询的效率低、成本高的问题,在问题域中对关系进行了完整的刻画,并且具有丰富、高效和敏捷的数据分析能力,其特征可以概括为基于图抽象的数据模型、图数据模型并行抽象、图模型系统优化3点。
(1)基于图抽象的数据模型:图计算系统将图结构化数据表示为属性图,它将用户定义的属性与每个顶点和边缘相关联。
(2)图数据模型并行抽象:图的经典算法中,从PageRank到潜在因子分析算法都是基于相邻顶点和边的属性迭代地变换顶点属性,这种迭代局部变换的常见模式形成了图并行抽象的基础。
(3)图模型系统优化:对图数据模型进行抽象和对稀疏图模型结构进行限制,使一系列重要的系统得到了优化。
3、图计算应用领域
目前,图计算已应用于医疗、金融、社交分析、自然科学以及交通等领域,很多互联网公司以及很多年轻的人工智能领域创业公司也都开展了图计算相关的业务。
(1)医疗行业的应用
图计算的出现使得对病人的智能诊断成为可能。对病人开具处方需要依据病人的病情特征与以往的健康情况,以及药物的相关情况。过去的医疗大多依赖于医生的个人经验与病人的自我描述,传统的数据处理系统无法一次性调出多个与病人情况、保险情况、药物情况相关的数据库——挑战在于信息必须由多个在线资源拼凑而成,包括列出疾病和治疗的电子病历、医疗保险或其他跟踪医疗服务的数据库、描述药物的数据库,在某些情况下,还有跟踪临床试验的独立数据库。
该场景是经典的链接网络,每个节点之间具有相互依赖性。变量可包括患者年龄和性别、特定药物(或药物组合)的结果、特定剂量,给药时的疾病阶段和潜在的药物相互作用。传统的
SQL 数据库实际上不可能计算这样的问题,因为传统的纯软件图无法提供应用所需的深度嵌套的连接,而图分析系统的出现则使得这样的场景成为了可能。
(2)金融行业的应用
在金融实体模型中,存在着许许多多不同类型的关系,以及数十亿的结点和边。有些是相对静态的,如企业之间的股权关系、个人客户之间的亲属关系,有些则是不断地在动态变化,如转账关系、贸易关系等等。这些静态或者动态的关系背后,隐藏着很多以前我们不知道的信息。之前,我们在对某个金融业务场景进行数据分析和挖掘过程中,通常都是从个体(如企业、个人、账户等)本身的角度出发,去分析个体与个体之间的差异和不同,很少从个体之间的关联关系角度去分析,因此会忽略很多原本的客观存在,也就更无法准确达到该业务场景的数据分析和挖掘目标。而图计算和基于图的认知分析正是在这方面弥补了传统分析技术的不足,帮助我们从金融的本质角度来看这个问题,从实体和实体之间的经济行为关系出发来分析问题。
在金融行业中,图计算以及认知技术重点应用的业务领域包括:金融风险的管控、客户的营销拓展,内部的审计监管、以及投资理财等方面。
(3)互联网行业的应用
目前大数据在互联网公司主要应用在广告、报表、推荐系统等业务上。在广告业务方面需要大数据做应用分析、效果分析、定向优化等,在推荐系统方面则需要大数据优化相关排目前大数据在互联网公司主要应用在广告、报表、推荐系统等业务上。在广告业务方面需要大数据做应用分析、效果分析、定向优化等,在推荐系统方面则需要大数据优化相关排
数据来源:《AMiner:人工智能之图计算(47页).pdf》