6-3 基于预训练模型的行业搜索应用和研究.pdf

编号:102345 PDF 57页 9.43MB 下载积分:VIP专享
下载报告请您先登录!

6-3 基于预训练模型的行业搜索应用和研究.pdf

1、基于预训练语言模型的行业搜索的应用和研究谢朋峻 阿里巴巴达摩院高级算法专家|01行业搜索的背景02相关技术研究03行业搜索应用目录CONTENT|01行业搜索的背景达摩院自然语言智能大图政务搜索、电力搜索、教育搜题、企业内搜索、司法搜索、古文搜索。l 赋能阿里集团l 赋能产业淘宝搜索、AE搜索、优酷搜索、神马搜索、闲鱼搜索、飞猪搜索。|行业搜索information repositoryInformation needSearch engine|行业搜索information repositoryInformation needSearch engine查询理解文档分析检索排序 queryaj

2、1北卡兰新款球鞋 分词aj1 北卡蓝 新款 球鞋 纠错aj1北卡蓝蓝新款球鞋 命名实体系列 颜色 营销 产品词 词权重0.80.80.21 同义改写aj1-(airjordan 1)or(air jordan 1)类目预测运动鞋/篮球鞋NLP分析质量分析效率分析相关性匹配效率优化运营管控 相似改写乔丹1北卡蓝潮鞋|行业搜索链路范式sparse retrieval倒排索引、查询理解(分词、tagging/term weighting、纠错、改写等)、文本相关性等等dense retrieval单塔/双塔模型、向量引擎|行业搜索链路生产链路召回粗排精排重排*N|行业搜索链路生产链路召回粗排精排重排

3、*N关键词向量个性化|行业搜索链路生产链路1.检索效果&工程效率的tradeoff2.复杂模型前置模型复杂度变高处理Doc数变多召回粗排精排重排*N|搜索效果评估l 召回recallN、无结果率l 排序相关性:NDCGN、MRRN等转化效率:CTR、CVR、收藏率、完播率、时长等等搜索效果好,是指什么好|消费互联网和产业互联网的搜索消费互联网搜索产业互联网搜索用户群体和UV互联网用户,UV量级大政企内部员工,UV量级小(某市城市大脑NO.1的应用-智能搜索,日均UV 千级别)搜索追求指标搜得到,搜得准,转化高-召回和相关性,CTR、CVR搜得到,搜得准-召回和相关性工程系统要求高QPS、低RT

4、;实时日志行为链路、实时模型训练QPS和RT要求低算法方向offline/nearline/online下海量用户行为分析建模内容理解(NLP、视觉等);low resource、transfer learning等|02行业搜索技术研究|行业搜索技术架构AliceMind体系|分词 定制预训练PMILRE121MLM LossMLMMSE LossBA(c).Boundary-Aware BERT LearningInput SentenceRaw CorpusN-gram Statistical DictionaryContextual N-gram SetsN-gram Set of N

5、-gram Set of+1+11/2+/2+1+2+11+1N-gram Set 1of 1Pre-Trained Language ModelRepresentation Composition(b).Boundary-Aware BERT Representation(a).Boundary Information ExtractorGram1PMI1;LE1;RE1Gram2PMI2;LE2;RE2GramPMI;LE;RE+LE RepPMI RepRE RepUnsupervisedInformation Mining-th BERT Layer-th BERT Layer1-th

6、 BERT LayerUnsupervised Boundary-Aware预训练模型模型实验结果对比针对中文词法任务设计的预训练语言模型底座BA-BERT、BA-StructBERT引入无监督统计边界信息提升中文词法任务的准确率CWS/POS公开学术数据集(5/6 SOTA)AVG实验结果:BAStructBERT StructBERT NEZHA ERNIE-Gram BERT-wwm BERT|分词 轻量化跨领域l 问题痛点l 解决思路1.OOV(未登录词)2.2.领域间数据分布差异大Coupling Distant Annotation and Adversarial Training

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(6-3 基于预训练模型的行业搜索应用和研究.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠