《DataFun-下午-2nd-腾讯内容生态中的数据科学-irisyyu(于扬).pdf》由会员分享,可在线阅读,更多相关《DataFun-下午-2nd-腾讯内容生态中的数据科学-irisyyu(于扬).pdf(20页珍藏版)》请在三个皮匠报告上搜索。
1、内容生态中数据科学于扬 腾讯 数据科学家|01数据是什么样子的?02我们可以做什么?03我们是怎么做的?目录 CONTENT|01数据是什么样子的?正态分布:Bell shaped&symmetricMean=median=mode例子:成年人身高的分布新生儿体重的分布考试分数的分布对工作满意程度的分布|统计101中的数据:正态分布Power Law:Heavy tail and long tailMean median mode例子:城市人口数量的分布机场航线数量的分布Startup价值的分布地震强度、深度的分布|生活中的数据:the Power LawTurkey 2020年之前所有 4.
2、0级以上地震的深度2000年美国超过1万人的城市的人口数量分布抽象机制:Human-related networks1.人的偏好、喜好的共性2.人的选择|Why Power Law(PL)?理论机制:1.Proportional random growth 2.Transformations of PLsPL is conserved under addition,multiplication,min,max and power transformation.The fatter-tailed one dominates.13.Matching and equilibrium Economic
3、s of superstars 2:10%的内容贡献了90%的流量Truncated log-normalPower law|内容生态的数据:the Power Law|02我们可以做什么?常用的厚尾分布:1.Exponential distribution2.Log-normal distribution3.Power LawPareto distributionZeta distributionZipfian distribution|厚尾分布及其性质二八法则:Pareto principle,80%of outcomes are due to 20%of causes.Pareto di
4、stributions with shape value of log45 1.16 precisely reflect it.Existence of moments(power law):k 2:finite meank 3:finite variance The classic CLT fails for k 2:finite meank 3:finite variance The classic CLT fails for k 2:finite meank 3:finite variance The classic CLT fails for k 秒、分钟vs全量索引池 100b-小时
5、、天Knowledge GraphHot vs coldvs实体书店 Barnes&Noble 100k 书Amazon 30%的销售来自Barnes&Noble 没有的书|Power Law=抓主要矛盾,以小搏大1M URLs AA test significant differenceExperiment on queriesDID,propensity score matching/weighting|03我们是怎么做的?内容生产收集处理内容分发用户消费|内容中台:全链路统筹优化,以小换大内容生产收集处理内容分发用户消费数据科学可解释/可落地:时间序列:发文量预估整数规划:发文供给优化概
6、率论:发文异动归因图论:创作者擅长树模型:原创、搬运、人格化、高生态价值创作者similarity search:风格、发文相似创作者因果推断:结算、流量对发文量的影响大小|内容中台:全链路统筹优化,以小换大|整数规划:发文策略优化整数规划MIP with linear constraints and objective function +Branch and cut内容生产piecewise linear+concave r+convex c linear可降低X%内容、Y%账号的补贴对业务影响收益影响小于1%