选自inference.vc
作者:Ferenc Huszár
机器之心编译
参与:Nurhachu Null、刘晓坤
本文是 Ferenc Huszár 关于的系列教程中的第三篇——反事实。反事实(counterfactual)也是一个被重复定义的词。Judea Pearl 对反事实的定义是:「如果...... 将会......」这种问题的概率性答案。其他人则更频繁地使用反事实机器学习或者反事实推理来指代与因果分析相关的广泛性技术。在这篇文章中,作者将聚焦于 Pearl 对反事实的狭义定义。
第二篇:隐藏着的因果关系,如何让相同的机器学习模型变得不同
反事实
例子 1:David Blei 的选举例子
已知希拉里·克林顿没有赢得 2016 年的总统大选,她在大选前三天没有访问密歇根,已知我们知道关于选举情况的所有事情,那么,假如希拉里在大选前三天访问了密歇根,她赢得大选的概率又会如何呢?
让我们试着分解一下这个问题。我们对以下这个概率感兴趣:
假设她会赢得选举
以以下四件事为条件:
她输了选举
她没有访问密歇根
其他任何观察到的相关事实
假设她访问了密歇根
这是一个奇怪的事情:你同时在假设她是否访问了密歇根。而且你还对她赢得选举的概率感兴趣。这是什么鬼?
为什么量化这个概率是有用的?主要是为了信用分配。我们想知道她为何输掉了选举,以及选举失败可以归因于她在大选三天前没有访问密歇根的程度。量化这个概率是有用的,这有助于政治顾问在下一次做出更好的决策。
例子 2: 反事实公平
这里是一个关于反事实的现实应用:评估个人决策的公平性。考虑一下这个反事实问题:
已知 Alice 在工作中没有得到晋升,已知她是一名女性,已知我们可以观察到的关于她的情况和表现的一切事情,那么,如果 Alice 是男性,她的晋升概率又会如何?
还是这样,问这个问题的主要原因是为了确定性别会对我们看到的结果有多大程度的影响。要注意的是,这是一个单独的公平概念,而不是在总体上评定晋升在统计上是否公平。或许晋升系统在整体上是相当公平的,但是在 Alice 的特例中,不公平的特例发生了。
反事实问题基于一个特殊的数据点,在这个例子中是 Alice。
关于这个反事实问题的另一个需要注意的点就是干预(Alice 的性别被奇迹般地改成了男性)并不是我们在实际中可以实现或者进行试验的东西。
我的胡子和我的博士学位
这里有一个例子,我会在讨论中用到,并且这个例子会贯穿这篇文章:我想理解我长胡子的程度和我获得博士学位有什么程度的关联:
已知我是有胡子的,我拥有博士学位,以及我们现在所知的关于我的一切,那么,如果我从未长过胡子,我会以多大的概率获得博士学位。
在我开始描述如何把这个表述为一个概率问题之前,让我们首先思考一下,我们直觉的期望答案是什么?在这个宏大的计划中,我的胡子或许不是我获得博士学位的一个主要因素。即使有什么事情阻止我留胡子,我也会苦苦追寻我的博士学习,并且可能完成学位。所以:
我们期望这个反事实问题的答案会是一个很高的概率,是一个接近于 1 的概率。
观察性查询研究
让我们从最简单的可以尝试回答我的反事实问题的地方开始:收集一些个体数据,他们是否有胡子,是否已婚,是否健壮,是否拥有博士学位,等等。下面是一个描述这么一个数据集的卡通图示:
如果我们有这些数据并且用它们做常规的统计机器学习,不做因果推理,我们可能会尝试估计 p(
1、头条易读遵循行业规范,任何转载的稿件都会明确标注作者和来源;
2、本文内容来自“机器之心”微信公众号,文章版权归机器之心公众号所有。