《基于知识增强和预训练模型的Query意图识别.pdf》由会员分享,可在线阅读,更多相关《基于知识增强和预训练模型的Query意图识别.pdf(22页珍藏版)》请在三个皮匠报告上搜索。
1、基于知识增强和预训练模型的Query意图识别演讲人:江悦阿里巴巴算法工程师2023 背景介绍工作分享总结思考背景介绍企业数字化升级流程数字化业务数字化信息数字化 BPMS流程管理 RPA流程自动化 对话机器 在线档 内容社区 采购系统 法务中台 企业统搜索企业员助业搜索企业搜索场景企业搜索的问题和挑战覆盖技术、政、HR、IT、法务、采购等领域多个内容站点,存在信息孤岛多领域,多系统业搜索Query和档的匹配用户为数据稀疏标注成本,标注数据少短Query理解长档理解企业搜索架构Query分词Query纠错查询扩展意图识别知识点预测Term权重chatgtp,怎么,调用QueryQuery输:输:
2、Chatgtp怎么调用chatgpt,怎么,调用chatgpt调用教程chatgpt(0.5),怎么(0.2),调用(0.3)技术教程AIGC企业搜索QP工作分享内外蜜背景介绍内外蜜意图识别问题和挑战小蜜意图识别 短本分类问题长尾类别语义稀疏领域术语平台名称具名称专有名词多专有名词多不规范不规范性性稀疏性稀疏性字数少缺少上下类别不平衡类别不平衡本表述简洁简称、不规范用语欢报销B区停车场内WiFi连接Outing费用怎么报销爱怎么挣内外蜜意图识别Step1:知识增强用户Query实体名介绍实体1实体2历史Query:300W+企业知识卡片:6000+向量召回历史QueryEntity 1Enti
3、ty 2Entity 3Similar Query 1Similar Query 2Similar Query 3Step2:本分类内外蜜意图识别知识增强对比学习:Sentence-BERT 监督finetuneStructBERT参数初始化用户Query实体名介绍请假系统小邮局历史Query:300W+企业百科知识卡片:6000+向量召回历史QueryEntity 1Entity 2Entity 3Similar Query 1Similar Query 2Similar Query 3内外蜜意图识别本分类EntityEntity信息融合信息融合QueryQuery信息提取信息提取Query
4、Query-Similar Similar&QueryQuery信息融合信息融合内外蜜意图识别离线指标在线指标 内外小蜜2.0上线后,精准命中率从63.94%(2022年10月)提升到75.79%75.79%(2022年3月),用户反馈中“帮助”占比相对下降12%12%。业搜索背景介绍采购商城采购商城 QueryQuery类目预测类目预测 query预测到item的类目体系类目应用类目应用 搜索排序 类目导航 相关搜索类目预测难点类目预测难点 标注数据不 类目多,类目商品分布不平衡预训练任务预训练任务:Masked Language Model微调微调:分类任务 未使用label本身的语义信息
5、 和预训练任务不致 需要较多的标注数据PromptPrompt LearningLearning 分类任务 MLM任务 适合zero-shot 和 few-shot 支持label扩展Prompt Learning模板设计(模板设计(templatetemplate)x 是种MASKMASK类产品这是种MASKMASK类产品:xx属于MASKMASK类商品Prompt Tuning+学习框架基于提示学习的采购类预测标签词映射(标签词映射(verbalizerverbalizer)“电脑类”“电脑”“食品饮料”“食物”基于Prompt的采购类预测离线指标在线指标 采购商城改版上线(20230216)之后,首页搜索点击率相对提升21.6%21.6%。总结思考企业场景Query理解的挑战知识增强的多种式企业场景下基于prompt的本分类企业预训练模型 领域知识不 有标注数据少 预训练模型 知识图谱 数据库 现有预训练模型zero-shot的局限性 template设计 预训练数据来源 所有任务 语模型任务 准确性如何保证总结思考感谢您的观看演讲人:江悦阿里巴巴算法工程师