《数据科学在实践中常见的数据谎言.pdf》由会员分享,可在线阅读,更多相关《数据科学在实践中常见的数据谎言.pdf(22页珍藏版)》请在三个皮匠报告上搜索。
1、数据科学在实践中常见的数据谎言度小满 郭晶数据背后真实的含义是?超过80%的牙医推荐高露洁More than 80%of dentists recommend Colgate-2007 UKs ad非唯一性选择的确:80%的牙医推荐了Colgate(高露洁)但同时:100%的牙医也推荐了Crest(佳洁士)、80%推荐了oral-B“披露的数据只是一部分”数据背后真实的含义是?药丸恐慌1995 pill scare1995年10月,英国医学安全委员会(CSM)发出警告,指出第三代口服避孕药使腿部或肺部潜在致命性静脉血栓栓塞(VTE)的风险增加了近一倍,并建议除非可能,否则改用旧药。声明中写道:
2、“众所周知,避孕药可能很少产生涉及腿部静脉的血栓形成(血栓)。新的证据表明,与其他药丸相比,某些类型的药丸在静脉中发生血栓形成的几率增加了约两倍.”在避孕药警告之前的几年里,英国堕胎率呈逐年下降的明显趋势,这一趋势一直持续到1995年前3个季度。1996年英格兰和威尔士已知的堕胎总数比1995年高出8%,增加了约13000例堕胎!第二代:15/100000第三代:25/100000风险增加:10/15=67%每10000人服用,增加1例VTE(万分之一)“只看相对变化是片面的,还要关注绝对值变化”数据背后真实的含义是?伦敦凶杀案超过纽约Londons murder rate now tops
3、New York Citys -2018 news“只看绝对值或者相对值是没有意义的”1990:184 vs 2262法官 vs 算法决策-2011年伦敦骚乱顺手牵羊者罗宾逊 超市顺走了一箱水吗,最终被判6个月约翰逊 游戏店顺走了多台游戏机,最终未被判刑人还是算法?1.相似案件前后决策不一致2.同一案件不同法官决策结果不一致1.算法降低25%犯罪率2.减少40%拘押率现行犯罪误区法官决策-统计定罪背景:1960 年代,Juanita Brooks在洛杉矶遭到一名身穿深色衣服的金发白人女性抢劫和殴打。一名目击者证实了一名目击者证实了这一描述,并补充说,这名女子扎着马尾辫,一名留着胡须的黑人男子开
4、着一辆黄色汽车将她接走,然后飞奔而去。警方随后逮捕了珍妮特和马尔科姆柯林斯,因为他们完全符合这个非常具体的描述。但是,当当局将这对夫妇介绍给警察队列中的受害者和证人时,他们都无法确定嫌疑人是袭击者。因此,一对夫妇拥有所有这些特征的几率(通过将概率相乘)是 12,000,000 分之一;所以这对夫妇不是嫌疑人的概率为十二万分之一条件概率事件A在事件B发生的条件下发生的概率。表示为P(A|B)A先发生,B后发生的概率 不等于B先发生,A后发生的概率P(A|B)=!(#%)!(%)P(B|A)=!(#%)!(#)P(B|A)=P(A|B)!(%)!(#)已知这里的一个生物有4条腿,那么它是狗的概率;
5、已知这里有只狗那么它是四条腿的概率四条腿 VS 狗哥哥弟弟、哥哥妹妹、姐姐弟弟、姐姐妹妹假设有一个家庭,有两个孩子,现在其中有知道一个男孩,请问另一个也是男孩的概率是多少1/2?概率是 1/3条件概率:被测定为阳性者,真实患病概率只有50%事件A在事件B发生的条件下发生的概率。表示为P(A|B)假设人群中有1%的人罹患此疾病,而其他人是健康的。我们随机选出任一个体P(健康)=99%;P(患病)=1%假设检验出错的概率是1%,那么所以:整群人中健康、且测定为阴性者的比率:P(健康阴性)=P(健康)*P(阴性健康)=99%*99%=98.01%整群人中得病、且测定为阳性者的比率:P(患病阳性)=P
6、(患病)*P(阳性患病)=1%*99%=0.99%整群人中被测定为假阳性者的比率:P(健康阳性)=P(健康)*P(阳性健康)=99%*1%=0.99%整群人中被测定为假阴性者的比率:P(患病阴性)=P(患病)*P(阴性患病)=1%*1%=0.01%假设检验动作实施在患病的人身上时:P(阳性患病)=99%,P(阴性患病)=1%假设检验动作实施在健康的人身上时:P(阳性健康)=1%,P(阴性健康)=99%整群人中被测出为阳性者的比率:P(阳性)=P(健康阳性)+P(患病阳性)=0.99%+0.99%=1.98%某人被测出为阳性时,实际上真的得了病的机率:P(患病阳性)=P(患病阳性)/P(阳性)=