-
Notifications
You must be signed in to change notification settings - Fork 0
/
DAG.Rmd
64 lines (37 loc) · 2.49 KB
/
DAG.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
---
title: "DAG"
author: "liuc"
date: '2022-07-07'
output: pdf_document
---
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```
## DAG
关于DAG的一些笔记,原理、应用和脚本、解释等。
```{r}
library(dagitty)
library(ggdag)
# http://www.dagitty.net/dags.html
```
`DAG`(directed acyclic graph), 有向无环图,是一种类似决策树没有闭环的图形。
在回归模型的构建中一般以探讨影响因素和控制偏倚、以及临床预测模型为主要目的,而对于探讨影响因素和控制偏倚为目的的回归模型,因变量和自变量之间往往存在着因果关系。但相关非因果,还需具体合理的理论假设。
*对于反应当前情况的暴露变量*在纳入模型前需要理清其和outcome的关系,一般在横断面研究中,一般不建议纳入。
进行数据分析之前,理清因果关系,是以探讨影响因素或者控制偏倚为目的回归分析的首要工作。这一工作,最具体化的方式,是DAG方法。
DAG,有向无环图(Directed Acyclic Graph,DAG)。这是一种理论驱动的自变量筛选方法,它基于理论的因果关系,构建因果关系网络,从而找到合适进入模型的自变量(本讲具有一定的理解难度)。
所有变量因果关系通过方向线形成的单向网络,该网络图即称之为有向无环图(Directed Acyclic Graph,DAG)。
DAG的几个主要概念:
1. 中介变量
2. 混杂变量
3. 相关变量等
概括来说,基于DAG理论最重要的自变量筛选原则是:
1. 中介变量不能纳入
2. 混杂因素必须放入
3.
## 变量筛选的一般性原则
回归分析中,最重要的一部分既是展开变量的分析,变量是否要纳入模型中,它是中介变量还是混杂变量?对于自变量为数值型变量的怎么处理,是否需要处理?哑变量怎么设置?不能的目的的模型纳入变量的要求有什么不同?先单后多,逐步回归等变量筛选的方法在什么情况下更合理?
## 效应改变法(Change-in-Estimate,CIE)
Hsin-Yi Weng等人2007年发表的论文,把效应改变法归为两类:
第一类,剔除自变量后,对最初模型目标因素效应值的影响不超过10%者,删除变量,否则则保留。
第二类,剔除自变量后,相对未剔除该自变量,目标因素效应值影响不超过10%时,则删除变量,否则则保留。
论文最常见的是方法第一类,本文亦对第一类进行详细解释。