forked from rse-r/intro-ii-r-ggplot-ex-ggplot2-template
-
Notifications
You must be signed in to change notification settings - Fork 0
/
01-ggplot2.Rmd
101 lines (67 loc) · 5.18 KB
/
01-ggplot2.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
---
title: "Gráficos con ggplot2"
author: "<tu nombre>"
date: "2024-07-11"
output: html_document
---
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
# En este bloque cargá los paquetes que vas a necesitar
library(tidyr)
library(readr)
library(dplyr)
library(datos)
library(ggplot2)
```
# Preparación
Esta vez vamos a trabajar con los datos `millas` del paquete datos.
Familiarizate con los datos igual que hiciste en el ejercicio anterior.
```{r}
millas <- datos::millas
```
En los ejercicios siguientes, vas a hacer varios gráficos.
Además de escribir el código para generar el gráfico, escribí como mínimo una oración describiendo qué es lo que ves.
¿Qué relación hay entre las variables?
¿Qué hipótesis te surgen?
# Ejercicios
1. Hacé un gráfico de puntos de "autopista" versus "cilindros".
¿Qué conclusión sacás?
Podemos observar que aquellos autos que tienen un menor número de cilindros, tienen una mayor cantidad de millas por galón de cantidad de combustible. En cambio, los que tienen mayor cantidad de cilidros obtienen una menor cantidad de millas por galón en la autopista.
```{r}
ggplot(millas, aes(x= autopista, y = cilindros)) +
geom_point()
```
2. Hacé un gráfico similar pero de "autopista" versus "ciudad".
Podemos observar un crecimiento casi lineal respecto a las millas por galón de combustible en la ciudad vs en la autopista. En otras palabras, aquellos autos que logran una mayor cantidad de millas por galón de combustible, obtienen una mayor cantidad de millas por galón en la autopista. (Relación lineas creciente)
```{r}
ggplot(millas, aes(x= autopista, y = ciudad)) +
geom_point()
```
3. ¿Qué pasa cuando haces un gráfico de "clase" versus "traccion"? ¿Por qué no es útil este gráfico?
Al hacer el gráfico de "clase" vs "traccion" podemos observar un gráfico con puntos todos dispersos. Este gráfico no es útil en este caso ya que la información es poco clara y no nos permite hacer un análisis eficiente ni poder determinar si hay alguna relación o no entre las variables involucradas.
```{r}
ggplot(millas, aes(x= clase, y = traccion)) +
geom_point()
```
4. En otro bloque, rehacé el gráfico de "autopista" versus "ciudad" pero ahora asigná la variable "tracción" al color de los puntos.
Con la incorporación de los colores según la tracción del vehículo, se nos hace mucho más sencillo analizar las variables y determinar la relación entre las mismas. En este caso podemos observar como aquellos autos que cuentan con tracción delantera obtienen una mayor cantidad de millas por galón de combustible en comparación con los autos de tracción trasera/4 ruedas.
```{r}
ggplot(millas, aes(x= autopista, y = ciudad, color = traccion)) +
geom_point()
```
5. ¿Qué ocurre si se asigna o mapea una estética a algo diferente del nombre de una variable, como `aes(color = cilindrada < 3)`?
Al asignarle el color a una condición, ggplot lo que hace es determinar un color para cada posibilidad dada. Se analiza cada dato del dataset y según la condición dada, asigna un color a cada respuesta. En este caso las posibilidades es que la cilindrada sea o no mayor a 3 y asigna un color para True y un color para False.
```{r}
ggplot(millas, aes(x = autopista, y = ciudad, color = cilindrada < 3)) +
geom_point()
```
6. ¿Notás algún problema con los gráfico anterior? Pensá en qué valores toman los datos de `ciudad` y `autopista`, ¿es posible que no haya ningún auto que haga 20.3 millas por galón en autopista? ¿Qué problemas puede traer eso? Por ejemplo, mirando el gráfico, ¿cuántos autos existe que hagan 20 millas en autopista y 15 en ciudad?
Las millas por galón de combustible suelen ser valores enteros en la mayoría de los datasets de automóviles, pero en caso de que queramos observar valores como 20.3 millas por galón en autopista,podría llevar a confusión al interpretar el gráfico, ya que estaríamos intentando identificar patrones en datos que deberían ser discretos, pero que aparecen como continuos. Además, el conteo de cuántos automóviles responden a tal valor puede verse afectado por la superoposición de puntos lo cual no nos permitiría determinar cuántos autos responden a tal valor.
7. En el gráfico anterior, reemplazá `geom_point()` por `geom_jitter()`. ¿Qué es lo que sucede? (Podés fijate en la ayuda de `geom_jitter()` si no entendés qué es lo que hace)
¿Qué ventajas y desventajas tiene este geom?
Lo que hacemos con `geom_jitter()` es aplicarle un pequeño desplazamiento a cada punto de la gráfica evitando o buscando evitar la superposición de los mismos con el objetivo de que se pueda visualizar la cantidad de los mismos y se pueda observar con facilidad la dispersión de los puntos respecto a las variables.
Como ventajas podemos destacar que se evita la superposición de puntos y mejora la visualización de los datos. Como desventajas podemos mencionar que vamos a tener una pérdida de precisión debido al desplazamiento aleatorio y posibilidad de introducir un sesgo al pensar que ciertos valores de la gráfica cambian cuando en realidad es una cuestión visual.
```{r}
ggplot(millas, aes(x = autopista, y = ciudad, color = cilindrada < 3)) +
geom_jitter()
```