《AB实验中策略长期效果评估方案研究(1).pdf》由会员分享,可在线阅读,更多相关《AB实验中策略长期效果评估方案研究(1).pdf(42页珍藏版)》请在三个皮匠报告上搜索。
1、D Da at ta aF Fu un nS Su ummmmi it t#2 20 02 23 3A A/B B实实验验中中策策略略长长期期效效果果评评估估方方案案研研究究演讲人-温中卉-腾讯广告-数据科学家D a t a f u n 分享 演演讲讲人人介介绍绍温中卉,北京大学光华管理学院商业分析硕士,现在腾讯广告数据科学团队,负责从数据科学角度对广告系统各链路分析与优化,应用实验设计和因果推断等方法进行科学评估衡量D a t a f u n 分享实实验验长长短短期期效效应应产产生生原原因因工工业业界界探探究究策策略略长长期期效效果果的的方方案案业业务务场场景景目目录录 C CO ON NT
2、 TE EN NT TD a t a f u n 分享D Da at ta aF Fu un nS Su ummmmi it t#2 20 02 23 30 01 1实验长短期效应产生的原因D a t a f u n 分享 背背景景AB实验将用户随机分成两组,对照组(没有策略)v.s.实验组(上线策略),两组用户除了是否上线策略外都同质,对比两组实验差异获取策略效果受到实验时长限制等原因,往往只能检测到策略的短期影响或短期指标-需要实验人员通过短期的实验捕捉策略长期的效果,高效地评估策略,提升评估效率,避免有效策略的漏判等问题新的UI设计DAU1%三个月后是否仍有具有影响收入不显著三个月后是否
3、会显著新奇效应学习效应D a t a f u n 分享实实验验长长短短期期效效应应产产生生的的原原因因外外生生影影响响:市场达到供需均衡状态需要时间Gupta,Somit&Kohavi,Ron&Tang,Diane&Xu,Ya&Vermeer,Lukas.(2019).Top Challenges from the first Practical Online Controlled Experiments Summit.ACM SIGKDD Explorations Newsletter.21.20-35.10.1145/3331651.3331655.季节原因或周中周末原因突发事件 内内生生
4、影影响响:用户学习效应(user learning)Hohnhold,Henning,Deirdre OBrien,and Diane Tang.Focusing on the long-term:Its good for users and business.Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.2015.推荐系统个性化推荐(如精排,粗排召回模型演进)Munro,Evan&Jones,David&Brennan,Jennifer&Ne
5、let,Roland&Mirrokni,Vahab&Pouget-Abadie,Jean.(2023).Causal Estimation of User Learning in Personalized Systems.短期难以观察长期指标(如30天留存)Gmez-Uribe,Carlos&Hunt,Neil.(2015).The Netflix Recommender System.ACM Transactions on Management Information Systems.6.1-19.10.1145/2843948.新奇效应novelty effect或首要效应primacy
6、effectsSadeghi,Soheil&Gupta,Somit&Gramatovici,Stefan&Ai,Hao&Lu,Jiannan&Zhang,Ruhan.(2022).Novelty and Primacy:A Long-Term Estimator for Online Experiments.Technometrics.64.1-26.10.1080/00401706.2022.2124309.人群偏差,如活跃用户会更多受到策略影响Wang,Yu&Gupta,Somit&Lu,Jiannan&Mahmoudzadeh,Ali&Liu,Sophia.(2019).On heavy
7、-user bias in A/B testing.D a t a f u n 分享D Da at ta aF Fu un nS Su ummmmi it t#2 20 02 23 30 02 2工业界探究策略长期效果方案D a t a f u n 分享 目目前前工工业业界界探探究究策策略略长长期期效效果果的的方方案案方案用户学习效应方法个性化推荐方法短期代理指标方法代理指数预测方法分期预测方法观察数据方法人群偏差调整方法内内生生影影响响:用户学习效应(user learning)推荐系统个性化推荐(如精排,粗排召回模型演进)短期难以观察长期指标(如30天留存)新奇效应novelty effe
8、ct或首要效应primacy effects人群偏差,如活跃用户更多受到策略影响D a t a f u n 分享 目目前前工工业业界界探探究究策策略略长长期期效效果果的的方方案案用户学习效应方法个性化推荐方法短期代理指标方法代理指数预测方法分期预测方法观察数据方法人群偏差调整方法D a t a f u n 分享 用用户户学学习习效效应应方方法法 用户学习效应(User learning effect):积极的结果会强化导致该结果的行为,而消极的结果会减少导致该结果的行为 策略效果=策略的短期效果(短期)+因用户学习效应带来的长期效果(长期)将收益可拆解为以下几部分,如ctr指标的变化1%时收益
9、的变化1%于是长期收益影响可运用短期收益效果RPM,和ctr由于用户用户学习影响导致的相对变化Uctr共同得到参考文献:Hohnhold,Henning,Deirdre OBrien,and Diane Tang.Focusing on the long-term:Its good for users and business.Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.2015.?如如何何量量化化U Uc ct tr r2015年谷歌设计了
10、一种可量化长期用户学习效应(User learning effect)的实验方法,建立短期指标变化与长期学习效应影响之间的关系,以实现通过短期可测量的指标来预测长期收益 R RP PMML LT Tr rp pmmD a t a f u n 分享 C CC CD D实实验验CCD 实验(Cookie-Cookie-Day)包括3个实验组,分别是长期实验、对照实验和 CCD 实验,其中CCD 实验将剩余用户样本随机划分成若干份,每天抽取一份受策略影响,其余时间都不再受策略作用(理想情况下样本足够多,则每份就只受一次策略影响,实际会重复轮换,但如果轮换间隔时间够长,可以忽略多次策略的累积影响)标标
11、准准流流量量实实验验长期实验前期和后期效果对比无法捕捉用户的学习效应:因得到的结果可能包含很多与学习效应无关的影响,如系统效应,季节效应,周末效应,后续上线策略的交互作用等在实验期间始终受策略影响,积累学习效应无策略作用第d天长期实验与CCD实验对比可衡量策略作用d天后用户的学习效应第d天CCD实验与对照实验对比可衡量策略短期效果D a t a f u n 分享 应应用用指数函数拟合Uctr,是长期的学习效应影响(t-),是学习速率,假设是随策略改变的,是固定的。谷歌论文基于历史实验拟合出学习速度为0.012-90天的实验可以捕捉65%的学习效应短期指标预测长期的学习效应影响,谷歌论文基于大量
12、历史实验,建立短期指标变化与长期学习效应影响之间的关系D a t a f u n 分享 局局限限性性&未未来来工工作作 可能低估长期学习效应影响处理不连续,基于cookie对用户标识的方式并不稳定存在其他用户行为的改变,目前仅假设长期学习效应体现在用户对点击的意图改变 学习速率不一定是固定的,如受策略影响的频率会影响学习速率 短期指标探索目前仅建立了广告相关性AdRelevance和落地页质量LandingPageQuality与长期学习效应影响之间的关系,对于表征UI变化对用户影响的指标还有待探索 方法本身存在开发和探索成本D a t a f u n 分享 目目前前工工业业界界探探究究策策略
13、略长长期期效效果果的的方方案案用户学习效应方法 个性化推荐方法短期代理指标方法代理指数预测方法分期预测方法观察数据方法人群偏差调整方法D a t a f u n 分享个个性性化化推推荐荐方方法法2023年谷歌提出实验长短期的差异除了用户学习影响(User learning effect)外,还受到推荐系统个个性性化化推推荐荐效效果果的影响,即长期策略组的用户被推荐的广告会因为用户行为的变化而与短期组不一致。文章构建的因果图如下,Xit,Xit分别代表用户i在t时间和t时间之前的行为(可以是点击等行为),Sit 代表用户i在t时间观测的系统状态(可以是网页的展示等),Wit,Wi新的算法GMV没有变化,但是用户的其他行为有增长时,因此这样一个新的算法肯定比老算法好但收益(GMV)与用户行为不同量纲时,比如GMV下降但是用户体验提升时,如何判断哪种算法更优?匹配效率用户算法一算法二GMV0gmv(10)gmv(11)GMV=0time_length(15min)time_length(14min)整体?需需要要一一种种兑兑换换关关系系来来将将用用户户体体验验提提 升升 换换 算算 成成G GMMV V提提升升D a t a f u n 分享感感谢谢观观看看D a t a f u n 分享更多讨论可通过微信联系D a t a f u n 分享