《电商知识图谱建设及大模型应用探索.pdf》由会员分享,可在线阅读,更多相关《电商知识图谱建设及大模型应用探索.pdf(29页珍藏版)》请在三个皮匠报告上搜索。
1、DataFunSummit#2024电商知识图谱建设及大模型应电商知识图谱建设及大模型应用探索用探索郑鑫 Shopee MPI&D-Listing Intelligence Senior Expert Engineer2024.03.230101电商知识图谱概览电商知识图谱概览0202电商知识图谱构建电商知识图谱构建0303电商知识图谱应用电商知识图谱应用0404知识图谱与大模型探索知识图谱与大模型探索目录 CONTENT目录 CONTENTDataFunSummit#20240101电商知识图谱概览电商知识图谱概览电商平台为什么需要知识图谱Product商品商品Buyer买家Seller卖家
2、Ecommerce Platform电商平台卖家与买家的语言表达习惯不同,如何将意图与商品匹配起来?不同卖家之间的语言表达习惯不同,如何将平台上的商品统一管理?不同市场的语言不同,跨境电商平台如何对齐不同市场商品,高效管理?电商平台为什么需要知识图谱深度学深度学习习或大模型或大模型优点:在很多任务上效果可观泛化能力强缺点:隐式模型,缺乏可解释性需要海量数据和强大算力存在模型幻觉问题知知识图谱识图谱优点将异构数据源转换为结构化知识:实体,关系,属性可解释性好缺点:构建难度大泛化能力有限V.S.电商平台为什么需要知识图谱知知识图谱识图谱优点将异构数据源转换为结构化知识可解释性好缺点:构建难度大泛化
3、能力有限卖家买家电商平台用户体验管理逻辑运营成本同款商品横向比较不同商品相同维度对比不同维度补足多种维度挖掘商品商品商品多元表达各异数据异构层级不同店铺内商品管理同市场内同款商品对比同市场内不同商品补足跨市场商品输出同类商品聚合管理跨市场商品对比和输出同类和跨类别商品效率分析品类上新、招商统统一的商品知一的商品知识图谱识图谱电商平台知识图谱多维度:商品卖家买家多层级:类目标品跨信息源:市场场景商品+评论DataFunSummit#20240202电商知识图谱构建电商知识图谱构建电商知识图谱构建难点来源多:卖家商品信息买家搜索、评论表达方式多样:不同卖家表述习惯不同不同语言表达方式不同商品展现方
4、式不同:文本、图片信息缺失信息错误信息冗余特定类别需领域知识鉴定信息准确性信息多元Shopee 为例:数十亿商品8个市场6种语言质量参差不齐依赖领域知识数据量大东南亚常用表达错误拼写保质信息领域知识电商知识图谱构建基本框架电商知识图谱构建方法-数据源TitleVariationSpecificationImageDescriptionComment电商知识图谱构建方法-信息抽取电商知识图谱的基石:Ontology定义和结构构建方法:专家领域知识数据主动挖掘Ontology 结构:基础定义层类别:L1-L5属性:关键属性,销售属性组合定义层:场景:多类目组合标签:类目+属性,或多属性,宽松定义标
5、品:类目+属性,严格定义电商知识图谱构建方法-信息抽取信息抽取-类目信息质量参差不齐:文本和图片信息质量检测信息模糊、不完整:文本+图片交叉验证多语言适配:不同语言实体拉齐E.g.1 首图图片嘈杂,很难分辨商品主体,选择商品明确的图片作为模型输入E.g.1 单从图片看可能属于乐器类目,但从标题中可以明确知道是儿童玩具Replace电商知识图谱构建方法-信息抽取信息抽取-类目信息信息质质量参差不量参差不齐齐:文本和:文本和图图片信息片信息质质量量检测检测信息模糊、不完整:文本+图片交叉验证多语言适配:不同语言实体拉齐Image Quality Score1.Image resolution2.O
6、bject Number3.Text4.BackgroundText Quality Score1.Rule-engine:token number in title 2.Multi-task cross check:classification and keywords detectionItem TitleSentence Embedding.TrmTrmTrmTrmClassifierAttention weightsInput categoryInput Keyphrase(s)电商知识图谱构建方法-信息抽取Li,Junnan,et al.Align before fuse:Visio