《企业知识图谱的关键技术及业务应用.pdf》由会员分享,可在线阅读,更多相关《企业知识图谱的关键技术及业务应用.pdf(26页珍藏版)》请在三个皮匠报告上搜索。
1、演讲人:宋凯嵩机构:达摩院算法专家 2023 背景介绍关键技术业务应用总结展望背景介绍背景介绍背景介绍市场痛点:市场痛点:营销问题:营销问题:企业对高质量的销售线索获取效率低下(缺乏更高效的商机推送),对整个行业分布、产业分布了解不全面。风控问题:风控问题:无法对客户、供应商的资质进行有效判断,内审、内控无抓手。洞察问题:洞察问题:无法全面洞察企业的全貌,包括各种基础画像、关联关系。政策趋势:政策趋势:工信部等11部门联合引发关于开展“携手行动”促进大中小企业融通创新(2022-2025年)的通知”,明确以数字化为驱动,打通大中小企业数据链,鼓励大企业打造符合中小企业特点的数字化服务平台。解决
2、手段:解决手段:企业图谱:企业图谱:从工商信息、招股书、年报、公司公告、券商研究报告、新闻等半结构化表格和非结构化文本数据中,批量自动抽取公司的股东、子公司、供应商、客户、合作伙伴、竞争对手等信息,构建出来的知识图谱。背景介绍技术挑战工商网站、招投标网站、新闻网站、司法裁判网等,需要有统一的采集引擎信息渠道散工商信息、招投标信息等结构化、半结构化、非结构化信息,依赖先进的自然语言处理、机器学习、数据挖掘等技术信息种类多对于新闻、招投标信息、工商变更信息需要能及时更新信息时效低不同渠道的信息质量参差不齐,需要进行清洗、归一、对齐等加工信息质量差数据算法/工程对HTML/PDF等富文档的处理多模态
3、挑战嵌套实体抽取、表格理解、多标段信息抽取等语义理解挑战超大规模图计算、查询、存储及语义和知识融合挑战图计算及融合挑战背景介绍企业&机构2.7亿+标讯商机9千万+互联关系40亿+基于达摩院大规模预训练模型体系(Alicemind),对公开多源异构实体数据通过算法进行归一对齐,完成自动归类;完成2.7亿+企业的实体属性定义及数据补全,构建企业实体标准库,并实现同步更新机制。基于达摩院多模态文档处理算法体系(DocMind),对9千万+非结构化标讯(如WEB/PDF等)进行深度解析,形成标准的标讯分类体系并将解析颗粒度细化至120+。使用图计算结合深度语义匹配、强化学习等算法,实现商机数据的多路召
4、回;使用多任务学习、元学习、个性化算法等算法,实现商机数据的个性化排序;最终实现商机的智能化推荐,推荐准确率达到85%以上定义30+种关系类型,基于达摩院的统一关系抽取算法及GraphAI图计算引擎,从海量数据中自动发现关联关系,最终实现40亿+互联关系网的构建,其中包括:同族关系、合作关系、对立关系、潜在关系等。公开&融合解析&关联画像&推荐挖掘&互联商机推荐85%技术架构企业图谱关键技术企业图谱业务应用钉端产品 应用应用场景场景能力层能力层文档预训练模型+图谱预训练模型云端产品 关联计算ModelScope招中标解析行业能力下沉行业能力下沉ModelScope多模态文档解析企业节点属性分析
5、标准PaaS能力行业能力打造标准化产品行业能力打造标准化产品公共云API服务混合云服务基础依赖基础依赖预训练大模型NLP自学习平台文档自学习平台OpenSearch标的物解析版面分析企业行业/产业识别深度语义匹配 实体及关系抽取:标讯解析实体及关系抽取:标讯解析 解决多模态、多格式、细粒度抽取问题 节点节点/属性分析:行产业分类属性分析:行产业分类 解决层次多标签分类,及属性信息补全问题 企业营销企业营销场景:商机推荐场景:商机推荐召回:融合图计算、深度语义匹配的多路召回算法 企业营销企业营销场景:企业推荐场景:企业推荐内容&行为的多路融合策略,推荐潜在客户和渠道 企业经营企业经营场景:风险预
6、测场景:风险预测自动发现商业结构,结合企业特征,预测经营风险 企业采购企业采购场景:产业链挖掘场景:产业链挖掘挖掘关键产业节点和挖掘关键产业路径 实体实体对齐:企业名称归一对齐:企业名称归一 解决企业名称录入不规范及实体对齐问题 图表示学习和关系图表示学习和关系预测:预测:解决具有稀疏性和多样性的KG节点表示和关系预测问题关键技术实体及关系抽取:标讯解析挑战挑战:多模态(HTML/PDF)、多格式(单标段、多标段)、细粒度方案方案:基于IDP+邻接表和多任务学习的框架,支持PDF文件、多标段格式的标讯解析,能力包括招标公告解析、中标(单标段、多标段)公告解析、标的物解析(实体&事件)等120+