《2020年终大会-搜索算法:12-3 旅行场景下搜索技术应用与创新.pdf》由会员分享,可在线阅读,更多相关《2020年终大会-搜索算法:12-3 旅行场景下搜索技术应用与创新.pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、旅行场景下搜索技术 应用与创新 英卓|阿里飞猪 导购算法 目录 contents 01猪搜背景 02 03 04 基础建设 召回策略 思考总结 飞猪搜索 猪搜(全局搜索) 行业小搜(酒店、机票、度假) 旅游决策天然的跨类目需求 手淘引流用户心智 最速操作路径 飞猪搜索 猪搜的重要性 猪搜框架 QP 搜索服务 LTP SP HA3 索引查询 粗排 ctr cvr score item static score match score 加权排序 final sort RTP QP 面临挑战 性能限制,提供良好线上服务 体验 传统文本理解,提供文本相关 性 Lbs与poi的理解,提供空间相 关性 用
2、户特征的理解,提供个性化 相关性 目录 contents 01猪搜背景 02 03 04 基础建设 召回策略 思考总结 Query tagging Query Tagging是QP中的一个基础任务 应用层 算法层 数据层 例:北京自由行 目的地意图 预处理 分词 词表预 匹配 规则/ 模型消 歧 tagging result QueryTagging|商品POI挖掘 背景 商品除了Title之外,详情中也包含大量信息, 例如景点POI,可以用作索引参与召回 但是详情是非结构化的HTML文本,如何挖掘 POI实体? 经典召回 |商品POI挖掘 x 1 x 2 x 3 x 4 y1y2y3y4 景
3、点SYM玉龙雪山SYM O OPOIPOIO U00:%x-3,0 U01:%x-2,0 U02:%x-1,0 U03:%x0,0 U04:%x1,0 U05:%x2,0 U06:%x3,0 U07:%x-2,0/%x-1,0 U08:%x-1,0/%x0,0 U09:%x0,0/%x1,0 U10:%x1,0/%x2,0 U11:%x- 1,0/%x0,0/%x1,0 标注 人工+词库 CRF+ NER模型 特征 Template 词本身 是否是数字 最后一个字 聚类结果 长度是否为1 效果 准确率为99.3%,召回率为95.2% 建模方式:属于一个典型的序列标注问题 同义词挖掘 航旅四种类型同义词 难点:如何在一个模型 里建模这四种同义关系, 挖掘通用同义词? 同义词挖掘 点击 基于词向量的同义关系挖掘算法 基于用户点击行为,我们拼接query和商品title,使得 query和tit