常听说相关性不等于因果性。但是什么是相关,什么又是因果?对此有一个精妙的解释。
一个简单的例子
假设我们想知道药物是否能够治疗某种疾病,于是便收集了如下数据
人数 | 健康 | 生病 |
---|---|---|
使用药物 | 2 | 0 |
不使用药物 | 0 | 2 |
看起来,使用药物的人都获得了健康,而未用药的人则仍然生病,这两者有一定的相关性。但是否就足以能说药物治好了他们呢?
未发生的历史
不如把前面用药的病人称作1和2,不使用的称作3和4,那么有
使用药物 | 不使用药物 | |
---|---|---|
病人1 | 健康 | 健康* |
病人2 | 健康 | 健康* |
病人3 | 生病* | 生病 |
病人4 | 生病* | 生病 |
其中打星号*的结果表示未发生的历史。我们不可能既给一个人用药,又不给一个人用药。那么就会存在一个未发生的历史。比如对于1号病人,即便是不用药他也会是健康的。
从这张表来看,是否使用药物和能否恢复健康完全没有关系了。
找到真正的因果
必须承认,找到一组真正的因果关系是非常困难的。
- 必须要有足够多独立的实验,如果只是极少的样本是不够的
- 每次实验都尽力的控制了各种其他因素
- 有合理的逻辑解释得到的因果关系
从这些标准看来,市面上大多数耸人听闻的 XX 导致 YY,都很难说是真正的的因果关系。而更多的时候,要花费太多的代价才能完成满足这些条件的实验。
最终,我们要学会在这不确定的世界中生存下去。