1、深度树匹配召回体系演进阿里妈妈广告产品技术事业部卓靖炜年终大会2020DATAFUNTALK#page#分享大纲检索召回技术现状深度树匹配(TDM)技术演进TDM业务应用实践总结与展望年终大会2020DATAFUNTALK#page#互联网业务中检索技术的发展推荐和广告的通用底层技术,是数据、算力和算法相辅相成检索技术是搜索、RetrievalAll ItemsInterest Itemsthousands+88MatchRankEnormous数据的扩张遇上算力的局限,产生了分阶段Match&Rank的算法体系Match的核心问题:从大规模候选集合高效检索topkTXN S Bound单点计
2、算消耗所需计算次数系统性能边界年终大会2020DATAFUNTALK#page#两段式Match的经典实现经典实现:基于商品的协同过滤(Item-basedCollaborativeFiltering,Item-CF)(IZI ua-ualaaaul uanl Jaaaulasn= ualasn 印Phase 1Phase 21.离线计算I2I相莫型简单,实现成本低2.获取历史行为似关系Trigger Item两阶段无法联合优化过捷截断导致效果受限3.扩展&计算得到Topk相似Item两段式检索一段式全库检索年终大会2020DATAFUNTALK#page#内积模型向量检索基于用户&商品特征的
3、Embedding计算内积相似度,集合召回-单点打分&分类面向全库的一段式检索,具有一定的发现能力1.离线学习Item1.受限于内积,模型能力存在局限Embedding(IE)AUC10.66CTR预估0.642.离线基于聚类&乘0.62积量化构建索引0.60.580.563.实时计算UserDQM(内积)DIEN(序列注意力)DIN(注意力)Embedding(UE),在索引中查2.索引构建与检索目标的优化方向不一致找UE最近邻K个IE索引构建的优化目标:最小化近似误差联合优化?向量检索的优化目标:最大化Topk召回率年终大会2020部分数据来自DeepInterestEvolutionNe
4、tworkforClick-ThroughRatePrediction-AAAI2019DATAFUNTALK#page#深度树匹配方向:更先进的深度模型TXN S Bound树的效率专10亿商品库挑Top110亿次-30次单点计算消耗所需计算次数系统性能边界root node解法:检索技术=模型能力+索引效能模型能力的升级,需要相应的索引结构的升级来支持0问题:哪种索引结构能够高效承载先进模型?1,如何基于树实现高效检索?X散列表?但散列基于距离度量,融合先进模型困难2,如何做兴趣建模保证树检索有效性X图?结构复杂,且图学习存在层次指数爆炸问题3,如何学习兴趣模型?树?结构相对简单,树生成研
5、究较广且效率高4,如何构建和优化树索引结构?年终大会2020DATAFUNTALK#page#基于树的高效检索方法-BeamSearch树结构设定叶子节点代表全库商品,中间节点代表粗粒度聚合体树的效率10亿商品库挑Top1平衡的完全二叉树,自顶向下兴趣从粗到细10亿次-30次基于层次兴趣树的高效检索方法核心思想:快速且有效的剪枝来找最优Topk叶子实现方案:BeamSearch启发式搜索自顶向下兴趣从粗到细逐层展开每层Topk子节点集合O(2*K*LogN),其中N为总商品个数(即叶快速剪枝一每层非Topk节点可停止搜索子数),K为目标推荐个数挑选依据用户对节点的兴趣预估问题:为什么可以采用这
6、样的检索策略?即如何保证BeamSearch的有效性年终大会2020DATAFUNTALK#page#最大堆树:支持BeamSearch检索的兴趣建模思考Pinz=MAX(Pan,P4)/有效检索策略背后蕴含了有效的兴趣建模=其中=(p,P)如何建模兴趣来支持高效的BeamSearch检索策略层次兴趣最大堆树Pa=MAX(Pi,P)/g兴趣树(d)p(+i)(nclu)maxSN3)SN2SN4ncefns chidrennodesin levelj+1)p()(n|)=aG)Pis=P(ITEM8luser)最大堆树下当前层的最优Topk孩子节点的父亲必然属于上层的父辈节点最优TopKuse