-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy path01Análisis Univariable.py
168 lines (155 loc) · 6.88 KB
/
01Análisis Univariable.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
import pandas as pd
import streamlit as st
import plotly.express as px
from PIL import Image
from streamlit_lottie import st_lottie
import requests
import re
import plotly.graph_objects as go
import plotly.figure_factory as ff
# organizamos la vara
st.set_page_config(page_title='AnalisisUni/EDA', layout = "wide")
# Cargamos los datos
csv_file1 = "Melbourne_Housing.csv"
csv_file2 = "Melbourne_Housing_NMD.csv"
csv_file3 = 'Melbourne_Housing_NMD&NOD (1).csv'
# asignamos los datos a variables
df1 = pd.read_csv(csv_file1)
df2 = pd.read_csv(csv_file2)
df3 = pd.read_csv(csv_file3)
# Análisis univariado
with st.container():
st.markdown("## Análisis Univariable")
st.write("___")
# Distancia
with st.container():
izquierda, centro , derecha = st.columns((2.22,1,2))
with centro:
st.markdown("### *Distancia*")
st.write("___")
with st.container():
centro , derecha = st.columns((1,1))
with centro:
x = df1["Distance"]
fig = px.histogram(df1, x="Distance",
labels={'Distance':'Distancia', "count":"Frecuencia"}, # can specify one label per df column
color_discrete_sequence=['indianred'] # color of histogram bars
)
st.write(fig)
st.info("Nota: La distribución esta levemente inclinada a la derecha.")
with derecha:
y = df1["Distance"]
fig = go.Figure()
fig.add_trace(go.Box(y=y,name='Distancia',marker_color = 'indianred'))
st.write(fig)
st.info("Nota: Existe una gran cantidad de valores atípicos, en este caso en los valores altos de los datos. Si el Y>25.2 se considera un valor atípico.")
# Tamaño de la propiedad
with st.container():
st.write("___")
izquierda, centro , derecha = st.columns((1.8,1,2))
with centro:
st.markdown("### *Tamaño de la Propiedad*")
st.write("___")
with st.container():
centro , derecha = st.columns((1,1))
with centro:
x = df1["Landsize"]
fig = px.histogram(df1, x="Landsize",
labels={'Landsize':'Tamaño-Propiedad', "count":"Frecuencia"}, # can specify one label per df column
color_discrete_sequence=['indianred'] # color of histogram bars
)
st.write(fig)
st.info("Nota: La distribución esta sumamente inclinada a la derecha. Y se puede intuir facilmente que es muy complicado encontrar una propiedad con más de 1500 m^2")
with derecha:
y = df1["Landsize"]
fig = go.Figure()
fig.add_trace(go.Box(y=y,name='Distancia',marker_color = 'indianred'))
st.write(fig)
st.info("Nota: Existe una gran cantidad de valores atípicos, en este caso en los valores altos de los datos. Si el Y>1330 m^2 se considera un valor atípico.")
# Area construida
with st.container():
st.write("___")
izquierda, centro , derecha = st.columns((2,1,2))
with centro:
st.markdown("### *Área Construida*")
st.write("___")
with st.container():
centro , derecha = st.columns((1,1))
with centro:
x = df1["BuildingArea"]
fig = px.histogram(df1, x="BuildingArea",
labels={'BuildingArea':'Área-Construida', "count":"Frecuencia"}, # can specify one label per df column
color_discrete_sequence=['indianred'] # color of histogram bars
)
st.write(fig)
st.info("Nota: La distribución esta inclinada a la derecha. Seria relevante analizar individualmente las casas que posean más de 2000m^2 de construicción para verificar que no sea un error.")
with derecha:
y = df1["BuildingArea"]
fig = go.Figure()
fig.add_trace(go.Box(y=y,name='Área-Construida',marker_color = 'indianred'))
st.write(fig)
st.info("Nota: Existe una gran cantidad de valores atípicos, en este caso en los valores altos de los datos. Si el Y>306m^2 se consideran valores atípicos.")
# Precio
with st.container():
st.write("___")
izquierda, centro , derecha = st.columns((2.27,1,2))
with centro:
st.markdown("### *Precio*")
st.write("___")
with st.container():
centro , derecha = st.columns((1,1))
with centro:
x = df1["Price"]
fig = px.histogram(df1, x="Price",
labels={'Price':'Precio', "count":"Frecuencia"}, # can specify one label per df column
color_discrete_sequence=['indianred'] # color of histogram bars
)
st.write(fig)
st.info("Nota: La distribución esta inclinada a la derecha. Aquellas propiedades que su precio de venta fuera mayor a 7M necesitarán un análisis individualizado.")
with derecha:
y = df1["Price"]
fig = go.Figure()
fig.add_trace(go.Box(y=y,name='Precio',marker_color = 'indianred'))
st.write(fig)
st.info("Nota: Existe una gran cantidad de valores atípicos, en este caso en los valores altos de los datos. Si el Y>2.295M se consideran valores atípicos.")
# Habitaciones
with st.container():
st.write("___")
izquierda, centro , derecha = st.columns((2.15,1,2))
with centro:
st.markdown("### *Habitaciones*")
st.write("___")
with st.container():
centro , derecha = st.columns((1,1))
with centro:
x = df1["Rooms"]
fig = px.histogram(df1, x="Rooms",
labels={'Rooms':'Habitaciones', "count":"Frecuencia"}, # can specify one label per df column
color_discrete_sequence=['indianred'] # color of histogram bars
)
st.write(fig)
st.info("Nota: La distribución esta inclinada a la derecha pero levemente. Se realizo el análisis para saber cuales son el tipo de propiedad que poseen más de 7 habitaciones, el resultado fue que más del 90% son tipo casas y el resto son unidades.")
with derecha:
y = df1["Rooms"]
fig = go.Figure()
fig.add_trace(go.Box(y=y,name='Habitaciones',marker_color = 'indianred'))
st.write(fig)
st.info("Nota: Existe una gran cantidad de valores atípicos, en este caso en los valores altos de los datos. Si el Y>8 habitaciones se consideran valores atípicos.")
with st.container():
st.write("___")
izquierda , derecha = st.columns((1,1))
with derecha:
st.markdown("### Estadísticos Relevantes")
tablaestadisticas = df1.describe()
st.write(tablaestadisticas)
with izquierda:
st.markdown(
"""
### Nombre-Región
"""
)
fig = px.histogram(df1, x="Regionname", color="Regionname")
st.write(fig)
st.write("___")
with st.container():
st.markdown("### Este Dashboard-Web sigue en desarrollo, próxima actualización después de examenes ...")