自闭症康复网,内容丰富有趣,生活中的好帮手!
自闭症康复网 > 因果4-因果模型

因果4-因果模型

时间:2023-12-29 12:30:08

相关推荐

因果4-因果模型

上一章我们从统计学角度学习了贝叶斯网络中点与点的关系,并没有真正涉及因果的重要内容,因为基于的都是条件概率,没有牵扯到干预,而干预是因果很重要的操作,这一章我们从干预开始,进一步学习如何识别因果图中的因果量。

首先让我们回顾并正式定义第一章中提到的干预–do操作。

The do-operator

图1. condition和intervention

如图1所示,conditioning和intervening是不同的操作。conditioning on T=t(在T=t条件下)表示我们只关注数据中T=t的子集,而intervening指对整个数据进行T=t的处理,即do(T=t),在do(T=t)时,潜在结果分布满足以下等式:

P(Y(t)=y)≜P(Y=y∣do(T=t))≜P(y∣do(t))P(Y(t)=y)\triangleq P(Y=y|do(T=t)) \triangleq P(y|do(t))P(Y(t)=y)≜P(Y=y∣do(T=t))≜P(y∣do(t))

因此在干预下,ATE可以写作:

E[Y∣do(T=1)]−E[Y∣dot(T=0)]E[Y|do(T=1)]-E[Y|dot(T=0)]E[Y∣do(T=1)]−E[Y∣dot(T=0)]。

The Main Assumption:Modularity

模块化。

定义因果中独特的干预操作后,仿照上一章贝叶斯图的思路,如果我们想分析因果中复杂的关系,我们先需要一个局部假设,Modularity(模块化):

如果干预集合SSS,将S内节点固定为常量,则对于因果图中的点i,

如果i∉Si \notin Si∈/​S, P(xi∣pai)P(x_i|pa_i)P(xi​∣pai​)保持不变。如果i∈Si \in Si∈S,且xix_ixi​与干预之前的值xi′x_i'xi′​相同,则P(xi∣pai)=1P(x_i|pa_i)=1P(xi​∣pai​)=1,否则P(xi∣pai)=0P(x_i|pa_i)=0P(xi​∣pai​)=0

通俗来说,modularity确保因果图中对于变量XiX_iXi​的干预只会改变XiX_iXi​本身的概率(类比local Markov assumption),如图2所示。等价于移除所有指向XiX_iXi​的因果边。如果干预X=1,则P(X=1∣pai)=0,P(X≠1∣pai)=0P(X=1|pa_i)=0, P(X\neq 1|pa_i)=0P(X=1∣pai​)=0,P(X​=1∣pai​)=0,我们称被移除了边的图为manipulated graph

图2. do操作

有了Modularity假设之后,我们可以在一个因果图中嵌入多个分布,比如P(Y),P(Y∣do(T=t)),P(Y∣do(T=t′))和P(Y∣do(T2=t2))P(Y), P(Y|do(T=t)),P(Y|do(T=t'))和P(Y|do(T_2=t_2))P(Y),P(Y∣do(T=t)),P(Y∣do(T=t′))和P(Y∣do(T2​=t2​))。如果没有假设,这些分布就需要构造多个图去表示,当满足Markov assumption 和 Modularity 假设 时,便得到了causal Bayesian networks

Truncated Factorization

继续跟着上一章的思路,现在我们有了因果图的局部假设:Modularity,于是可以推出因果图的分解方法:Truncated Factorization(截断分解)。首先回顾贝叶斯网络分解公式,如果P关于G是马尔科夫的,则P可分解为:

P(x1,...,xn)=∏iP(xi∣pai)P(x_1,...,x_n)=\prod_iP(x_i|pa_i)P(x1​,...,xn​)=∏i​P(xi​∣pai​)

再进一步,假定P关于满足Markov assumptionModularity,给定干预集合S,如果x与干预值一致(Modularity第二点),则

P(x1,...,xn∣do(S=s))=∏i∉SP(xi∣pai)P(x_1,...,x_n|do(S=s))=\prod_{i\notin S}P(x_i|pa_i)P(x1​,...,xn​∣do(S=s))=∏i∈/​S​P(xi​∣pai​),否则,P(x1,...,xn∣do(S=s))=0P(x_1,...,x_n|do(S=s))=0P(x1​,...,xn​∣do(S=s))=0

图3. 识别P(y|do(t))

利用Truncated Factorization便可以进行causal identification,比如对于图3识别P(y|do(t)):

贝叶斯网络分解:P(y,t,x)=P(x)P(t∣x)P(y∣t,x)P(y, t, x)=P(x)P(t|x)P(y|t,x)P(y,t,x)=P(x)P(t∣x)P(y∣t,x)

Truncated Factorization:P(y,x∣do(t))=P(x)P(y∣t,x)P(y,x|do(t))=P(x)P(y|t,x)P(y,x∣do(t))=P(x)P(y∣t,x)

Marginalize:P(y∣do(t))=∑xP(y∣t,x)P(x)≠∑xP(y∣t,x)P(x∣t)=∑xP(y,x∣t)=P(y∣t)P(y|do(t))=\sum_x P(y|t, x)P(x)\neq \sum_x P(y|t, x)P(x|t)=\sum_x P(y, x|t)=P(y|t)P(y∣do(t))=∑x​P(y∣t,x)P(x)​=∑x​P(y∣t,x)P(x∣t)=∑x​P(y,x∣t)=P(y∣t)

通过这三步可以识别出P(y|do(t))的因果量,还证明了其与统计量P(y|t)之间的区别。

Backdoor Adjustment

后门调整。

继续回忆上一章,我们根据点与点的关系提出了blocked概念,对于单条路径,如果:

路径中存在chain …->W->…或者fork…<-W->…结构,W∈ZW\in ZW∈Z路径中存在collider …->W<-…,W∉ZW \notin ZW∈/​Z且W的子孙de(W)∉Zde(W)\notin Zde(W)∈/​Z

则称X和Y之间的这条路径被条件集Zblocked(阻断),条件集Z可以是空集。与之相对,unblocked路径便是不满足blocked条件的路径。

我们将目光聚焦于T和Y之间的关系,定义T和Y间除了直连路径的unblocked路径为backdoor paths(后门路径),如图3中的T<-X->Y路径,像是在T->Y路径之外开了“后门”一样。

再基于后门路径,得到定义backdoor criterion(后门准则):关于T和Y,如果一组变量集合W满足:

W blocks 所有从T到Y的 backdoor pathsW 中不包括任何 T 的子孙

则W满足后门准则。满足后门准则的变量集合被称为sufficient set(充分集)。给定sufficient set W,可以识别:

P(y∣do(t))=∑wP(y∣dot(t),w)P(w∣do(t))P(y|do(t))=\sum_wP(y|dot(t),w)P(w|do(t))P(y∣do(t))=∑w​P(y∣dot(t),w)P(w∣do(t))(positivity)

=∑wP(y∣t,w)P(w∣do(t))=\sum_wP(y|t,w)P(w|do(t))=∑w​P(y∣t,w)P(w∣do(t))(后门准则)

=∑wP(y∣t,w)P(w)=\sum_wP(y|t,w)P(w)=∑w​P(y∣t,w)P(w)(do操作的性质,移除所有指向t的边)

根据这个识别过程,便得到了backdoor adjustment,即

给定Modularity assumption,positivity assumption 且 W 满足backdoor criterion,我们可以识别T到Y的因果效应为:

P(y∣do(t))=∑wP(y∣t,w)P(w)P(y|do(t))=\sum_wP(y|t,w)P(w)P(y∣do(t))=∑w​P(y∣t,w)P(w)

Relation to d-separation

我们比较上一章的d-separation和本章的backdoor adjustment,可以发现backdoor adjustment其实就是对后门路径的d-separation。

Relation to Potential outcome

本章的后面调整和第二章潜在结果框架中提到的后门公式极为相似,后门公式如下:

E[Y(1)−Y(0)]=EW[E[Y∣T=1,W]−E[Y∣T=0,W]E[Y(1)-Y(0)]=E_W[E[Y|T=1, W]-E[Y|T=0, W]E[Y(1)−Y(0)]=EW​[E[Y∣T=1,W]−E[Y∣T=0,W]

后门调整为:

P(y∣do(t))=∑wP(y∣t,w)P(w)P(y|do(t))=\sum_wP(y|t,w)P(w)P(y∣do(t))=∑w​P(y∣t,w)P(w)

我们对后门调整公式的y求期望,得到:

E[Y∣do(t)]=∑wE[Y∣t,w]P(w)=EWE[Y∣t,W]E[Y|do(t)]=\sum_wE[Y|t,w]P(w)=E_WE[Y|t,W]E[Y∣do(t)]=∑w​E[Y∣t,w]P(w)=EW​E[Y∣t,W],然后对T=1和T=0的期望求差:

E[Y∣do(T=1)]−E[Y∣do(T=0)]=EW[E[Y∣T=1,W]−E[Y∣T=0,W]]E[Y|do(T=1)]-E[Y|do(T=0)]=E_W[E[Y|T=1,W]-E[Y|T=0,W]]E[Y∣do(T=1)]−E[Y∣do(T=0)]=EW​[E[Y∣T=1,W]−E[Y∣T=0,W]],得到后门公式,可见二者等价。

与潜在结果框架不同的是,因果图框架给出了数据顶点间的关系,根据这些关系我们可以直观地挑选W以满足后门准则。

至此,我们仿照第三章学习了因果贝叶斯网络的识别过程,下面我们再进一步,学习更纯粹的因果图。

Structural Causal Models(SCMs)

结构因果模型。潜在结果模型和结构因果模型是因果推理的两大主要模型。

我们先从学习模型的基本术语开始。

Structural Equations

结构等式。

首先,常规的“=”并不能满足因果的需求,因为常规的“=”是都城,“A=B"就等价于“B=A”,这其中并没法嵌入A和B的因果关系,因此我们需要一个能嵌入因果信息的“=”,即Structural Equations:

B:=f(A)

“:=”是非对称的,意味着A是B的因。f表示A到B的函数,函数f不需要被指定,当f不被指定时,函数处于无参的领域,因为我们没有针对参数形式设定任何假设。

结构因果模型还引入了我们之前一直没有深究的未观测变量,得到结构等式:

B:=f(A,U)B:=f(A,U)B:=f(A,U)

U是指未观测变量,也可以理解为A到B因果关系外的背景噪音。有了U,就可以用结构等式表示任何概率关系,比如之前我们经常使用的P(xi∣pai)P(x_i|pa_i)P(xi​∣pai​)。

借助结构等式,我们可以重新定义因果机制,

direct cause(直接原因):X直接出现在Y的结构等式的右侧,比如B:=f(A,U)B:=f(A,U)B:=f(A,U)中的A。

cause(原因):X是Y的直接原因,或者是Y的原因的原因。

有了以上定义,我们可以得到结构因果模型的定义,一个结构因果模型就是由下列集合构成:

endogenous variables(内生变量)集合 Vexogenous variables(外生变量)集合 U函数集合f,生成每一个内生变量作为其他变量的函数图4. SCM例子举个例子,图4的外生变量为{A,$U_B, U_C,U_D$ },内生变量为{B,C,D},结构等式M为:

B:=fB(A,UB)B:=f_B(A,U_B)B:=fB​(A,UB​)

C:=fC(A,B,UC)C:=f_C(A,B,U_C)C:=fC​(A,B,UC​)

D:=fD(A,C,UD)D:=f_D(A,C,U_D)D:=fD​(A,C,UD​)

对于结构等式中的因果图,如果它是DAG且噪音变量U是独立的,则该因果图是马尔科夫的,分布P是关于该图马尔科夫的。如果它是DAG但噪音变量不独立,则称该模型为semi-Markov(半马尔科夫)。最后,如果图中有环(不满足DAG)且噪音变量U不独立,则模型是非马尔科夫的。

Interventions

干预在SCM中的表示很简单,干预do(T=t)就等于将T的结构等式定义为T:=t。

图5. invention例子比如对于图5a中的因果图,有M:

T:=fT(X,UT)T:=f_T(X,U_T)T:=fT​(X,UT​)

Y:=fY(X,T,UY)Y:=f_Y(X,T,U_Y)Y:=fY​(X,T,UY​)

干预T为t,得到图5b的因果图,MtM_tMt​:

T:=tT:=tT:=t

Y:=fY(X,T,UY)Y:=f_Y(X,T,U_Y)Y:=fY​(X,T,UY​)

由M和MtM_tMt​,可以定义SCMs中的Modularity assumption:

对于一个 SCM M 和 do(T=t) 干预后的 SCM MtM_tMt​,Modularity assumption 表示 M 和 MtM_tMt​ 共享除了T以外的结构等式,且T在MtM_tMt​中的结构等式为T:=t。

最后我们再学习一个重要定义,反事实法则。刚开始不理解其用处没有关系,我们后面会逐渐加深对其的理解。

The Law of Counterfactuals (and Interventions)

反事实(和干预)法则。

在因果推理中,我们可以使用很多方式表达单位潜在结果,比如在潜在结果模型中,我们使用Yi(t)Y_i(t)Yi​(t),我们还可以使用Yit,Yt(u)Y^t_i, Y_t(u)Yit​,Yt​(u)。在SCM中,我们可以用Yt(u)Y_t(u)Yt​(u)表示单位u在处理t下的观测结果,在干预后的SCM MtM_tMt​中,用YMt(u)Y_{M_t}(u)YMt​​(u)表示如果对M执行干预t后Y的潜在结果。

我们定义The Law of Counterfactuals (and Interventions)为:

Yt(u)=YMt(u)Y_t(u)=Y_{M_t}(u)Yt​(u)=YMt​​(u)

如果大家还记得第0章的因果之梯,那么可以察觉到,从这个法则开始i,我们已经登上了由第二层干预到第三层反事实的阶梯。

conclusion

关于因果图我们学习了两类假说,

The Modularity Assumption,包括三种形式

Modularity assumption for Causal Bayesian NetworksModularity assumption for SCMsThe Law of Counterfactuals

The Markov Assumption,包括三种等价形式

Local Markov assumptionBayesian network factorizationGlobal Markov assumption

给定上述两类假说和positivity,如果因果图还满足后门准则,则该图有可识别性。(no interference 和 consistency 假设都暗藏在因果图的定义中。

这一章我们不断引入假设和符号,思路由贝叶斯网络学到因果贝叶斯网络再到结构因果模型,除了更加了解因果模型本身之外,我想更重要的是学到了前人的思考方式。如果大家感兴趣的话,可以推一推这两章我们不断前进的思路,相信会对初学者有一定的启发。

Reference

Introduction to Causal Inference

如果觉得《因果4-因果模型》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。