幸存者偏差和检查悖论

幸存者偏差

幸存者偏差有一个经典的故事是

1941年,第二次世界大战中，美国哥伦比亚大学统计学沃德教授(Abraham Wald)应军方要求，利用其在统计方面的专业知识来提供关于《飞机应该如何加强防护，才能降低被炮火击落的几率》的相关建议。沃德教授针对联军的轰炸机遭受攻击后的数据，进行研究后发现：机翼是最容易被击中的位置,机尾则是最少被击中的位置。沃德教授的结论是“我们应该强化机尾的防护”，而军方指挥官认为“应该加强机翼的防护，因为这是最容易被击中的位置”。
教授的理由是机尾被击中的飞机都没有回来，所以是最要命的。而后来的实验结果支持了教授的结论。

检查悖论

公交车等待时间问题

检查悖论的经典模型是公交车等待时间问题。简单来说就是，即使公交车的发车时间平均是十分钟，但是你仍然觉得你等的公交车都来的很慢，普遍超过十分钟。

这个现象相信坐过公交车的人都深有体会，对这个现象，我过去的理解是幸存者偏差，那些一等就来的公交车你总是觉得理所应当，只有那些痛苦又漫长的经历让你记忆犹新，所以记忆里总是漫长的等待。虽然用幸存者偏差来解释也没有问题，但是有一种数学上的证明，会发现某些情况下，客观上也是平均的等待被拉长了。

咱们忽略路上堵车的情况，如果公交车很平均的每小时发六辆车，也就是每十分钟发一辆，有的人赶巧等0分钟，有的人不巧等10分钟，那么平均我们等公交车的时间便是5分钟。但是如果公交公司前五辆车每五分钟发出，第六辆车等了35分钟发出，对公交公司来说还是一小时发了六辆，还是平均十分钟一辆，但是从乘客角度来说，他等车时间的期望变成了多少呢。

前五班车的平均等待时间是2.5分钟，乘客遇到这种情况的概率是25/60
第六班车的平均等待时间是17.5分钟，乘客遇到这种情况的概率是35/60
那么我们算得乘客等待的期望值就成了：
2.5分钟x25/60+17.5分钟x35/60=11.25分钟

看到了吗，对公交公司来说，还是平均十分钟一班车，但是乘客的等待时间平均是11.25分钟。咱们从上面公式分析原因，主要是等待时间过长的班车，也会有更高概率被遇到。如果这种情况发生，本来乘客等车平均是5分钟，就被拉到11.25分钟，变成两倍还多。虽然说现实情况下公交车不会这么没有规律的发车，但是遇到堵车等情况后往往就是这个情况。虽然发车时间依然没有变，但是乘客等车的感受是普遍超慢。

相同的原理可以发生在各种场景。

班额问题

要知道一所学校平均的班额是多少，问教务，他根据学校总人数除以班数得到结论30人每个班。如果在校园里面随机调查一些学生，问他们班有多少人，最后得到结论可能平均超过90人每个班。原因也是因为这些大班的人更多，你调查的时候遇到的概率也更高，最后发现通过调查算得平均的班额远大于教务的统计。

主播粉丝的问题

现在直播行业大火，我们抽样一些主播的粉丝数来分析，发现平均都是百万粉丝，那么咱们做主播是不是也能达到这个水平呢，其实很难。正因为他们粉丝多，所以我们才看到他，那些没有粉丝的人，你也统计不到，所以导致我们错误的分析结果。

后记

幸存者偏差和检查悖论其实有异曲同工的地方，都是因为我们对数据采样的时候出了问题。一些现象更容易被观察到，从而放大了他的作用，而忽略了沉默的少数。检查悖论更像是幸存者偏差的一种具体的数学证明。

检查悖论之所以叫这个名字，就是因为他的结果来自外部的检查。公交车平均10分钟一班是基于出车数据统计而来的，而乘客的等车时间就相当于从外部来检查这个数据，这两个结果没有对错，都反映了事实的一个方面，所以对于看数据的人，必须要清楚这项数据的定义和计算逻辑，更要理解数据表达的意义。平均班额根据教务的统计也是没有问题的，但是如果我们通过调查问卷的方式从外部来检查这个数据，得出了不同的结论，这就是不同的统计分析方法带来结果的偏差。我们做数据分析，尤其是运用问卷调查的时候，一定要意识到检查悖论的存在。

参考

李永乐老师讲检查悖论>>