《基于知识图谱的召回引擎行业实践.pdf》由会员分享,可在线阅读,更多相关《基于知识图谱的召回引擎行业实践.pdf(23页珍藏版)》请在三个皮匠报告上搜索。
1、基于知识图谱的召回引擎行业应用实践演讲人:张文阿里巴巴技术专家2023 业务背景图游走召回图表示召回图召回引擎个人介绍业务背景业务背景客户推荐标讯推荐业务背景律师推荐类似案件推荐业务背景*市法律服务信息中心招标公告*市法律服务定点咨询中心招标公告*市智慧法务建设项目招标公告*网络科技有限公司*市法院*市城市管理综合执法历史投标推荐标书1、单纯文本相似,并不能体现所有因素2、多个输入找共同相似的时候,文本向量取平均效果不好3、从关联度的角度出发考虑,以图的方式解决这部分问题4、并不是通过图的方式就比文本方式优,一样有badcase,只是增加了一种召回角度图游走召回图游走召回-Pixie1、多重关
2、系共同作用2、多源综合推荐3、多变、多样性推荐图游走召回-Pixie缺陷1、并不是所有内容都适合作为顶点,例如电影类型,会关联出太多邻居,这一步基本就变成了完全随机,重合度会非常低,没有起到任何作用。2、所有路径都是同样权重。3、如果某个节点同级邻居数量不同,影响公平性图游走召回-WeightPixie1、路径增加权重,通过游走过程概率实现2、将一些顶点作为属性,根据输入,计算每个属性值分布权重Weightattr3、多源增加权重,作为起始权重Weightunit4、同级邻居公平性,根据候选数量t将结果分支放大图游走召回-业务应用企业招投标图权重设置:省份、招标行业、标的类型作为属性,以que
3、ry组中属性值的分布设置权重;query组中的时间距离归一到0,1作为初始权重;效果:构建全量图,将2021年之后的投标行为随机去掉50%,召回TOP100,看2021年以后召回覆盖率。CovTop100相较于纯文本方式提升30%;CovTop100;性能:SuperStep=100,RT=200ms,图游走召回-业务应用司法案件图权重设置:案由、法条作为属性权重;不同路径设置权重,其中以原告律师、被告律师、法官为主;效果:随机构建100个query,对召回结果进行标注,对比纯文本和纯图谱召回方式,图谱召回效果提升50%性能:SuperStep=200,RT200ms;图游走召回-图游走缺点1
4、、不能有超级节点类型,如果有只能转换为属性表达2、需要人工判断某种边类型是否有作用,以及权重3、只能推荐出有关联的信息,只能挖掘同质性,无法挖掘结构性相似图表示召回图表示召回-图表示学习图表示学习的主要目标,正是将图数据转化成低维稠密的向量化表示方式,同时确保图数据的性质在向量空间中也能够得到对应。walk、translate、gnn我们以图神经网络方法为主图表示召回-图表示学习企业图谱商机推荐、企业风险传播GraphMAE构图下游任务图表示召回-图表示学习图召回引擎图召回引擎1、顶点不在已有图中2、query中包含顶点以及其一阶邻居基于游走召回时以query中的一阶邻居作为起始顶点游走即可基于表示召回时1、表示学习训练出的模型,部署推理服务2、根据query中的一阶邻居,在图数据库查询出N阶邻居(需采样)3、将query的内容与查询出的内容构建小图,推理出query顶点embedding4、向量召回上述流程也可用于解决增量顶点的问题图召回引擎图召回引擎-未来计划1、超大规模图2、多模态感谢您的观看演讲人:张文阿里巴巴技术专家