常见统计学悖论与谬误
2021-10-26 20:11:56
1. 辛普森悖论 (Simpson’s Paradox)
- 定义:分层组数据表现的相关性方向与整体数据的相关性方向截然相反。
- 注意:分析时需特别关注分组的权重。
2. 基本比率谬误 (Base Rate Fallacy)
- 定义:知道结果并不能通过条件概率反推出所属分组的概率。
- 核心:只能通过基本分布(Base Rate)才能准确推断分组。
3. 博克森悖论 (Berkson’s Paradox)
- 定义:在已经被挑选(筛选)的数据中呈现出的相关性往往是不可靠的。
- 建议:应在原始数据中考虑相关性,避免选择偏差。
4. 罗杰斯现象 (Will Rogers Phenomenon)
- 定义:当把数据从一个组移到另一个组时,可能导致两个组的平均值同时上升。
- 核心:需考虑样本数量变化对平均值的影响。
5. 幸存者偏差 (Survivorship Bias)
- 定义:当所有信息全部来自被筛选组(幸存者)时,会导致关键信息丢失。
6. 赌徒谬误 (Gambler’s Fallacy / Monte Carlo Fallacy)
- 定义:在连续随机重复事件中,当次事件的概率并不会因为之前事件的积累而改变。
- 误区:常被称为“小数法则”,即错误地理解了大数法则,认为小样本也应符合大数规律。
7. 生日悖论 (Birthday Paradox)
- 定义:如果一个房间里有23个或23个以上的人,那么至少有两个人生日相同的概率大于50%;若有70人,概率则达到99%。
- 启示:直觉往往与数学事实相悖,仅凭直觉做决策是不合理的。