1、新一代高性能搜索引擎HA3在在线零售业务中的应用邢少敏(多愚)阿里巴巴高级技术专家Contents目录01在线零售搜索面临的挑战02搜索引擎HA3技术03在线零售业务中的搜索实践在线零售搜索面临的挑战01搜索面临的挑战-工程挑战618、双11等大促活动的高并发访问商品、订单、物流等海量数据检索订单、物流类数据时效性要求极高分钟级不可用会导致巨额业务损失搜索作为流量入口,延迟高会导致交易量下降工程挑战百万级QPS(高并发)千亿级数据(大数据)毫秒级时效(高时效)5个9可用性(高可用)毫秒级响应(低延迟)搜索面临的挑战-算法挑战信息规范程度低宝宝棉服套装婴幼儿冬装0-1岁3男婴儿棉衣秋冬女保暖棉袄
2、加厚外套毛豆新鲜5斤青豆毛豆角甜豆生鲜蔬菜豌豆带壳农家现摘嫩豆荚包邮意图丰富水-(矿泉水?花露水?洗发水?)苹果-(吃的苹果?苹果手机?)马可菠萝-(菠萝?马可菠萝火腿肠?)丝袜奶茶-(丝袜?奶茶?)召回量大,排序难单次召回千万,如何进行准确排序搜索引擎HA3技术02搜索引擎HA3架构简介分布式高性能服务实时索引能力插件扩展架构SQL查询索引构建离线处理Searcher检索粗排精排QRS业务数据算法数据XSearcher检索粗排精排可扩展架构支持不同业务规模QRSQRSQRSPart0Part1Part2Part0Part1Part2SearchersCM2CM2/VIP ServerSP/T
3、PP多副本多分片保障高优先级数据excellentgoodbadbiz1biz2biz3Item_tableaux table1aux table2zonesbizstablesmain docssub docsqrs处理流程Build ServiceProcessorBuilderMergerRaw DataIndexMerged IndexRaw Topic中转TopicFull/Inc indexRealtime indexRealtime builder毫秒级时效性swifthdfsCava语言Cava特点 语法和Java类似 性能与C+相当 支持面向对象编程 支持即时编译HA3 SQ
4、L从离线Join到在线Join降低更新数据量级多表在线JoinSQL查询Search索引构建离线处理QRSSearch业务数据算法数据离线处理索引构建检索检索检索检索业务方SQL兼容用户习惯贴近业务查询饿了么 搜索支持向量召回、深度粗排性能提升1倍淘宝支持搜索、推荐多行业、多场景更新量:减少2个数量级内部监控系统P99 latency降低80%95%+钉钉 钉盘文件搜索支持复杂权限逻辑亿*千万 级别在线join搜索业务SQL实践案例多路召回Search Planner文本倒排索引召回粗排精排文本相关性文本召回文本索引集群向量索引召回向量相似度向量召回向量索引集群个性化倒排索引召回粗排精排文本相
5、关性个性化召回文本索引集群精排模型打分排序服务查询分析配置中心多路召回结果合并应用、模型、查询策略配置Query改写精排打分查询请求粗排精排注:CTR(Click Through Rate)点击率=点击次数/展现次数注:CVR(Click Conversion Rate)点击转化率=用户点击结果到成为一个有效激活的转换率在线零售业务中的搜索实践03传统搜索业务 搜索框 导航条 图片、语音搜索大数据管理 数据库加速 时序引擎 数据处理业务场景搜索引擎HA3应用场景ABTest配置行为采集开通监控报警开通查询分析配置应用结构配置算法功能配置干预词典配置数据源配置搜索报表搜索测试优化大师SDK下载排
6、序配置Opensearch侧控制台用户侧配管服务在线计算离线计算数据源接入基础服务字段排序相关性排序统计打散索引算法模型索引召回排序引擎分词归一化实体识别词权重分析同义词查询改写查询理解拼写纠错类目预测算法模型搜索API算法训练索引切换索引构建日志分析数据校验多表关联报表统计数据处理RDS/ODPS/POLARDB接入行为数据接入干预数据接入存储系统配额服务集群监控集群调度OpenSearchSDK-SearchOpenSearchSDK-PushRDS/ODPS/POLARDB分词服务干预服务下拉提示应用场景电商行业:商品搜索、订单搜索、门店搜索、数据