1、*参考:The Value of Personal Data in Internet Commerce:A High-Stake Field Experiment on Data Regulation Policy*参考:赋能传统的报表分析,提供更准确的决策报表统计检验效力(Power):指统计推断中检验出显著的能力,样本量越大,power越高。模型预估精度(MSE):因果推断和机器学习模型结合时,样本量越大,模型精度越高,预测值的MSE越小1.互联网场景下,面临大数据量的因果推断,目前的单机采样损失效果。2.因果推断模型也需要复杂调参过程,需要实时分析能力01我们的工作 Fast-Causa
2、l-Inference:腾讯开源分布式因果推断工具 底层基于OLAP引擎和SQL解析引擎的数据科学计算框架,在秒级处理数千亿行数据因果推断计算。例如,6 亿行的数据集执行 t 检验仅需0.32 秒 采用SQL/python语言交互,方便分析同学使用 因果推断工具包,覆盖业内最常用的因果推断模型,已经有20+模型https:/ in SQL 均值检验场景,提供基于做方差估计的 检验函数,附带有 种方差削减能力()方差削减:利用协变量信息做回归,降低统计量的噪声,提高统计效力()后分层方差削减:利用协变量做分层,每一层内分别估计方差再加权,加权后统计量方差更小16假设检验+方差削减 SELECT
3、search_type,ttest_2samp(avg(click)/avg(show),index,two-sided,avg(click_pre)/avg(show_pre),first_hit_ds)AS ttest_result FROM test_data_small;GROUP BY search_typeCUPED方差削减假设检验deltamethod,链式法则求导维度下钻后分层方差削减均值检验场景,提供基于做方差估计的 检验函数,附带有 种方差削减能力()方差削减:利用协变量信息做回归,降低统计量的噪声,提高统计效力()后分层方差削减:利用协变量做分层,每一层内分别估计方差再加
4、权,加权后统计量方差更小16假设检验+方差削减 SELECT search_type,ttest_2samp(avg(click)/avg(show),index,two-sided,avg(click_pre)/avg(show_pre),first_hit_ds)AS ttest_result FROM test_data_small;GROUP BY search_typeCUPED方差削减假设检验deltamethod,链式法则求导维度下钻后分层方差削减业务场景:许多指标采用传统的 统计量较低,需要考虑其他检验方法举例:某些指标(金额相关)分布非常极端,高达以上,普通 检验不显著,非参
5、检验显著具体原理:将实验组和对照组的样本放在一起排序,对排序值进行 检验,而不是对指标原始值进行 检验适用场景(业务收益):业务关心的是策略对更多用户存在提升,而不是对用户平均存在更大幅度提升16业务真实使用效果适用指标举例:时长 长尾指标16业务真实使用效果适用指标举例:时长 长尾指标问题:维度,遍历算法计算量问题法效探索交叉维度下的异质因果效应问题第类错误概率爆炸问题17输:特征 受策略状态 协变量 画像因果树模型:分裂条件 最化治疗效应的异质性输出:树结构 叶结点的策略效果动化地找出交叉维度下的显著异质因果效应17(因果树)输:特征 受策略状态 协变量 画像因果森林模型:总结合并不同结构的因果树的结果输出:每个户的因果效应估计更精准、稳定地预测每个个体的因果效应(因果树)准确性无法只允许一部分用户参加活动 更新版本,因为会影响用户体验对用户进行随机分流,保证差异只来源于策略“匹配”后,在同质人群上进行对比不同质的两群人不同质的两群人直接对比应用:观测性分析 无法做实验