幸存者偏差
幸存者偏差有一个经典的故事是
1941年,第二次世界大战中,美国哥伦比亚大学统计学沃德教授(Abraham Wald)应军方要求,利用其在统计方面的专业知识来提供关于《飞机应该如何加强防护,才能降低被炮火击落的几率》的相关建议。沃德教授针对联军的轰炸机遭受攻击后的数据,进行研究后发现:机翼是最容易被击中的位置,机尾则是最少被击中的位置。沃德教授的结论是“我们应该强化机尾的防护”,而军方指挥官认为“应该加强机翼的防护,因为这是最容易被击中的位置”。
教授的理由是机尾被击中的飞机都没有回来,所以是最要命的。而后来的实验结果支持了教授的结论。
检查悖论
公交车等待时间问题
检查悖论的经典模型是公交车等待时间问题。简单来说就是,即使公交车的发车时间平均是十分钟,但是你仍然觉得你等的公交车都来的很慢,普遍超过十分钟。
这个现象相信坐过公交车的人都深有体会,对这个现象,我过去的理解是幸存者偏差,那些一等就来的公交车你总是觉得理所应当,只有那些痛苦又漫长的经历让你记忆犹新,所以记忆里总是漫长的等待。虽然用幸存者偏差来解释也没有问题,但是有一种数学上的证明,会发现某些情况下,客观上也是平均的等待被拉长了。
咱们忽略路上堵车的情况,如果公交车很平均的每小时发六辆车,也就是每十分钟发一辆,有的人赶巧等0分钟,有的人不巧等10分钟,那么平均我们等公交车的时间便是5分钟。但是如果公交公司前五辆车每五分钟发出,第六辆车等了35分钟发出,对公交公司来说还是一小时发了六辆,还是平均十分钟一辆,但是从乘客角度来说,他等车时间的期望变成了多少呢。
前五班车的平均等待时间是2.5分钟,乘客遇到这种情况的概率是25/60
第六班车的平均等待时间是17.5分钟,乘客遇到这种情况的概率是35/60
那么我们算得乘客等待的期望值就成了:
2.5分钟x25/60+17.5分钟x35/60=11.25分钟
看到了吗,对公交公司来说,还是平均十分钟一班车,但是乘客的等待时间平均是11.25分钟。咱们从上面公式分析原因,主要是等待时间过长的班车,也会有更高概率被遇到。如果这种情况发生,本来乘客等车平均是5分钟,就被拉到11.25分钟,变成两倍还多。虽然说现实情况下公交车不会这么没有规律的发车,但是遇到堵车等情况后往往就是这个情况。虽然发车时间依然没有变,但是乘客等车的感受是普遍超慢。
相同的原理可以发生在各种场景。
班额问题
要知道一所学校平均的班额是多少,问教务,他根据学校总人数除以班数得到结论30人每个班。如果在校园里面随机调查一些学生,问他们班有多少人,最后得到结论可能平均超过90人每个班。原因也是因为这些大班的人更多,你调查的时候遇到的概率也更高,最后发现通过调查算得平均的班额远大于教务的统计。
主播粉丝的问题
现在直播行业大火,我们抽样一些主播的粉丝数来分析,发现平均都是百万粉丝,那么咱们做主播是不是也能达到这个水平呢,其实很难。正因为他们粉丝多,所以我们才看到他,那些没有粉丝的人,你也统计不到,所以导致我们错误的分析结果。
后记
幸存者偏差和检查悖论其实有异曲同工的地方,都是因为我们对数据采样的时候出了问题。一些现象更容易被观察到,从而放大了他的作用,而忽略了沉默的少数。检查悖论更像是幸存者偏差的一种具体的数学证明。
检查悖论之所以叫这个名字,就是因为他的结果来自外部的检查。公交车平均10分钟一班是基于出车数据统计而来的,而乘客的等车时间就相当于从外部来检查这个数据,这两个结果没有对错,都反映了事实的一个方面,所以对于看数据的人,必须要清楚这项数据的定义和计算逻辑,更要理解数据表达的意义。平均班额根据教务的统计也是没有问题的,但是如果我们通过调查问卷的方式从外部来检查这个数据,得出了不同的结论,这就是不同的统计分析方法带来结果的偏差。我们做数据分析,尤其是运用问卷调查的时候,一定要意识到检查悖论的存在。