很多科学都需要通过观测一组变量或者对其中一些变量进行干预试验,发现其中的因果关系,从而改造世界,对应于因果关系之梯的三个层级:观测,干预,反事实。通常情况下我们只有观测到的数据,传统的机器学习方法着重于对已观测数据的归纳总结,只是找出了变量之间的相关关系,训练出的模型也只能应对已观测过的情况,泛化能力不足以应对真实世界复杂的场景。如果想知道一个变量对另一个变量的影响,就需要做干预试验,最常用的有控制变量法和随机对照试验。控制变量法的最大缺陷在于无法确定变量控制的粒度,可能控制了不该控制的变量,没有控制应该控制的变量。随机对照试验则只关心假设的因果变量,其它变量都随机化处理,在期望情况下不影响因果变量之间的效应。但是干预试验都需要做大量的试验,可能在技术、伦理等方面不可行。因果发现就是要在已观测数据和少量甚至没有干预数据的情况下,发现变量之间的因果关系,以便推测当原因变量改变为未观测过的情况时,结果变量会是怎样的情况。
变量集中的因果关系对应于一个因果关系图,表示为有向无环图(DAG),顶点是变量,有向边从原因变量指向结果变量。
非时序变量因果图的建立主要包括确定变量间因果关系的存在性和因果方向的确立:首先检验各变量间的独立性,初步构建一个无向图;然后用基于约束的方法剔除其中不符合因果马尔科夫假设和因果忠诚性假设的连接;最后用结构方程模型确定因果方向,得到有向无环图,即为因果图。
当数据集中任意变量的直接原因变量都在该数据集中时,称该数据集是因果充分的。因果充分假设是因果发现与推断的基础。
如果两个变量是独立的,则它们必然没有因果关系;但如果它们不独立,则不能表明一定有因果关系,可能存在混杂因子,需要进一步通过假设检验进行筛选。例如,气温升高使人烦躁,也使金属变形,人的烦躁和金属的变形不存在因果关系,但有一定的相关性,气温升高就是其中的混杂因子。
基于约束的方法剔除因果关系图中不符合因果马尔科夫假设和因果忠诚性假设的边。 因果马尔科夫假设是指:对于因果充分变量集,已知父结点时,所有变量与它们的非后代结点相互条件独立。如下图所示,给定C的父结点A和D时,C与B、E都条件独立。 因果忠诚性假设是指: 基于约束的方法面临着马尔科夫等价类的问题,如下图所示,变量A,B,C之间的条件独立性关系是一样的,无法确定因果方向:
因果方向确立的关键在于打破变量间的对称性,结构方程模型可以做到这一点。结构方程模型的一般形式为 Y = f ( X , ε ; θ ) (1) Y=f(X,\varepsilon;\theta)\tag{1} Y=f(X,ε;θ)(1)其中 θ \theta θ是函数 f f f的参数, ε \varepsilon ε是假设独立于 X X X的误差项,函数 f f f解释了变量间的因果过程。 根据 f f f性质的不同,可分为线性因果模型、非线性加性噪声模型和后线性模型。线性因果模型是非线性加性噪声模型的一种特例,而非线性加性噪声模型也是后线性模型的一种特例,随着泛化能力的增强,模型构造难度也变高了。
线性因果模型: Y = b X + ε (2) Y=bX+\varepsilon\tag{2} Y=bX+ε(2)非线性加性噪声模型: Y = f ( X ) + ε (3) Y=f(X)+\varepsilon\tag{3} Y=f(X)+ε(3)后线性模型: Y = f 2 ( f 1 ( X ) + ε ) (4) Y=f_2(f_1(X)+\varepsilon)\tag{4} Y=f2(f1(X)+ε)(4)以线性因果模型为例解释结构方程模型如何判别因果关系的方向。首先假设X是Y的原因,分别从两个方向对变量进行回归分析,即 Y = b X + ε Y=bX+\varepsilon Y=bX+ε和 X = b Y Y + ε Y X=b_YY+\varepsilon_Y X=bYY+εY,如下图左右两侧。如果 X X X和 ε \varepsilon ε都服从正态分布,则 Y Y Y与 ε Y \varepsilon_Y εY相互独立,无法判定因果方向;如果 X X X和 ε \varepsilon ε中至少一个变量不服从正态分布,则 Y Y Y与 ε Y \varepsilon_Y εY不相互独立,从而确定 X X X是 Y Y Y的原因。该结论对非线性加性噪声模型和后线性模型同样适用。
时序数据会随着采样频率的下降而丢失因果信息。
[1] Spirtes P, Zhang K. Causal discovery and inference: concepts and recent methodological advances. Applied Informatics, Springer Berlin Heidelberg, 2016, 3(1). [2] 郝志峰, 蔡瑞初, 陈薇, 张坤. 基于非时序观察数据的因果关系发现综述. Intergovernmental Panel on Climate Change. Journal of Chemical Information and Modeling, Cambridge: Cambridge University Press, 2017, 53(9): 1689–1699. [3] Causal discovery and inference - concepts and recent methodological advances
先给出结论,再给出推导过程,只有过程中用到的部分才需要表达,用不到的就直接丢。