-
Notifications
You must be signed in to change notification settings - Fork 0
/
introduccion_casen.r
139 lines (101 loc) · 3.39 KB
/
introduccion_casen.r
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
#PARTE 1: introducción a la Casen
#instalar paquetes si es necesario
#install.packages("dplyr")
#install.packages("tidyr")
#install.packages("readstata13")
#cargar paquetes
library(dplyr)
#descargar casen: http://observatorio.ministeriodesarrollosocial.gob.cl/encuesta-casen-2017
#cargar base de datos ----
casen <- readstata13::read.dta13("~/Casen/Casen 2017.dta")
#mirar la base ----
casen
names(casen)
tibble(casen)
glimpse(casen)
#convertir a tibble ----
casen <- as_tibble(casen)
#contar casos de una variable----
casen %>%
count(pobreza)
#filtrar por regiones ----
casen %>%
count(region)
casen %>%
filter(region != "Región de La Araucanía")
#filtrar por otras condiciones ----
casen %>%
count(pco1)
casen %>%
filter(pco1 == "Jefe(a) de hogar",
sexo == "Mujer")
#factor de expansión ----
#necesitamos aplicar factor de expansión...
nrow(casen)
#filtrar la región metropolitana
casen_rm <- casen %>%
filter(region == "Región Metropolitana de Santiago")
casen_rm
nrow(casen_rm)
#seleccionar variables de interés
casen_rm
casen_rm %>%
select(region, edad, sexo, pco1)
casen_rm1 <- casen_rm %>%
select(comuna,
expc, #factor de expansión comunal
expr, #factor de expansión regional
sexo, #género
esc, #años de escolaridad
edad, #edad
ytotcorh, #Ingreso total del hogar corregido
ytotcor, #Ingreso total corregido
yoprcor, #Ingreso ocupación principal
ypc, #Ingreso total per cápita del hogar corregido
ytrabajocor, #ingreso del trabajo
ytrabajocorh, #ingreso del trabajo del hogar
ypchautcor, #ingreso autónomo per cápita
y26_2c, #jubilación o pensión
numper, #numero de personas en el hogar
s4, #hijos vivos
#hasta acá las numéricas
pco1, #jefe de hogar
activ, #actividad
hacinamiento, #hacinamiento
pobreza, #pobreza
pobreza_multi_5d, #pobreza multidimensional
r1a, #nacionalidad
r3, #pertenencia a pueblos originarios
v12, #metros cuadrados de la casa
indmat) #índice de materialidad de la vivienda
#expansión ----
#aplicar factor de expansión comunal (expc)
casen_rm2 <- tidyr::uncount(casen_rm1, weights = expc)
#comparar conteos
casen_rm %>%
filter(pco1 == "Jefe(a) de hogar") %>%
count(sexo)
casen_rm2 %>%
filter(pco1 == "Jefe(a) de hogar") %>%
count(sexo)
#resumir valores ----
#resumir valores: ingresos
casen_rm %>%
summarize(mean(ytrabajocorh, na.rm=T))
casen_rm2 %>%
summarize(mean(ytrabajocorh, na.rm=T))
#resumir valores: ingresos
casen_rm2 %>%
summarize(mean(y26_2c, na.rm=T))
#agrupar operaciones ----
casen_rm2 %>%
group_by(sexo) %>%
summarize(mean(ytrabajocorh, na.rm=T))
casen_rm2 %>%
group_by(comuna) %>%
summarize(mean(ytrabajocorh, na.rm=T))
#crear nuevas variables ----
casen_rm2 %>%
filter(pco1 == "Jefe(a) de hogar") %>%
count(sexo, name = "cantidad") %>%
mutate(porcentaje = cantidad/sum(cantidad))