我近年来最喜欢的论文之一包含了这个图表。 它展示了控制三种不同类型变量的影响:混杂变量、碰撞变量和中介变量。 对于混杂变量,控制是有益的。而对于其他变量,控制会破坏你的结果。
如果你有带有测量误差的变量,你可能会遇到另一个问题变量:代理变量。 代理变量会使所有这些扭曲变得更加严重,并且更难处理。
这篇论文提出了一个简单的观察:统计控制需要因果证明。这实际上就是标题。 他们给出了几个基于有向无环图(DAG)的例子。考虑这个例子:教育娱乐是混杂变量还是中介变量?你应该控制它吗,还是这会影响你的估计?
这始终是你必须考虑的事情,但坦率地说,考虑统计控制的因果关系是非常特殊的。 许多论文会控制无关的下游变量(代理变量),或者他们无意中控制了中介变量。这是常态!
我的文章讨论了关于控制的使用和误用的更多问题。 例如,它指出,匹配实验的倾向评分可能需要大量的数据和努力:
它指出,某个发现可能并不意味着它所说的那样:
这表明,即使是因果推断的黄金标准——随机对照试验(RCT)——也需要正确进行,否则你会陷入一个效果估计被夸大的情况,得出错误的结论。
15.99K