《2020年终大会-推荐算法:3-2.pdf》由会员分享,可在线阅读,更多相关《2020年终大会-推荐算法:3-2.pdf(25页珍藏版)》请在三个皮匠报告上搜索。
1、Alibaba Group阿里巴巴集团粗排技术体系与最新进展王哲阿里定向广告算法团队#page#Alibaba Group大纲粗排发展历史粗排最新进展总结与展望#page#Alibaba Group阿里巴巴集团粗排发展历史#page#Alibaba GroupCD背景介绍tens of millions大型工业排序系统一般采用多阶段级联架构,包含:召回:1000W+tens of thousands粗排:1W+hundreds精排:上百重排:上百粗排目标:在满足算力r约束的情况下,选出满足后链路需求的集Re-Ranking合。Ranking粗排与精排的比较:Pre-Ranking算力r约束:粗
2、排打分量远高于精排,同时有较严格的Matching延退约束:10-20ms,解空间问题:粗排线上打分的候选集更大,面临更严重的选择偏差问题#page#Alibaba GroupE粗排的两大技术路线集合选择技术精准值预估技术以集合为建模目标,选出满足后链路以值为建模目标,直接对最终系统需求的集合目标进行精确值预估依赖对后链路的学习,可控性较弱可控性更强算力消耗一般较小算力消耗一般较大代表技术:,多通道代表技术:Listwise,女LambdaMARTsPointwise序列生成算法集合评估器集合生成器#page#Alibaba Group心粗排的前深度学习时代(2016年以前)质量分基于广告的历
3、史平均CTR,只使用了广告侧的信息0(e)表达能力有限实时性强LR为代表的传统机器学习模型#clicks(ad)结构简单,有一定的个性化表达能力可以在线更新,在线服务y=0(0)y=f(xa)=concat(u,auo)CGeneration 2Generation 1Ad-wise statistical scorLogistic Regression#page#Alibaba GroupCA粗排的深度时代-向量内积模型(2016)双塔结构,两侧分别输入user特征和ad特征,经过DNN变幻后分别产出user向量和ad向量vuser侧网络可以引入transformer等复杂结构对用户行为序列
4、进行建模优点:ConcatConca内积计算简单,节省线上打分算力user向量和ad向量离线计算产出,因此可以做的非常复杂而不用担心rt问题ad featuresuser featuresy=o(FC(c),FC(ea)Generation 3Vector-Product based DNNCovington PAdams JSargin E.Deep Neural Networks for YouTube Recommendaions.RecSys.2016.#page#Mibaba GroupE向量内积模型的改进-向量版Wide&Deep模型(2019)模型结构:Deep部分仍然为向量内积
5、结构通过wide部分引入交叉特征特点:一定程度上克服了内积模型无法使用ConcaConcat交叉特征的问题Wide部分是线性的,表达能力仍然受到限制ad featurescross featuresuser featuresy=a(FC(e),FC(ea)Generation 3.2Wide&Vector-Product based DNNCheng H-T,KocL,Harmsen Jet al.Wide & DeepLearning for Recommender Systems.2016#page#libaba GroupEL向量内积模型的改进-实时化(2019)user向量通过线上打分
6、实时产出Ad向量仍然离线产出,但是更新频次加快特点:ConcatConca通过实时打分,可以引入实时信息,实时性加强实时打分使向量内积模型的RT和算力优需觉,引入新的打分模型和ad向量版本一致性问题ad featurescross featuresuser featuresy=o(FC(e),FC(ea)Generation 3.2Wide&Vector-Product based DNN#page#Alibaba Group阿里巴巴集团粗排最新进展#page#Alibaba GroupCOLD:新一代粗排框架(2019)YCOLD:Computing power costaware Onli