Objetivo Recopilación de ejemplos de Estadística, análisis de datos y ML aplicados con librerias de Python y R
- Fundamentos de Estadística
- Estadísticos análiticos
- Distribuciones de probabilidad
- Hipótesis
- Regresiones
- Árboles de decisión
- Scipy: Computo científico
- Pandas: Estructuras de datos y análisis
- Numpy: Estructuras de N dimensiones
- SKlearn: Aprendizaje automático
- SymPy: Matemáticas simbolicas
- Statsmodels Modelos estadísticos, hypothesis tests, and data exploration
- TensorFlow: TensorFlow ofrece herramientas para la definición y entrenamiento de redes neuronales.
- Keras: Keras se ofrece como interfaz de alto nivel para librerías como TensorFlow, Theano o CNTK.
- NLTK: Librería de procesamiento de lenguaje natural, con multitud de herramientas orientadas al análisis de textos.
- XGBoost, LightGBM: Librerías que implementan los algoritmos homónimos, fundamentales en entornos tabulares.
- Seaborn: Visualización de datos basada en Matplotlib. Capa adicional de abstracción
- Matplotlib: Gráficado en 2D
- Bokeh: Tercera librería de visualización de esta lista, aunque en este caso no está basada en Matplotlib. Bokeh ofrece visualizaciones interactivas muy atractivas y útiles.
- Pyreadstat A python package to read and write sas (sas7bdat, sas7bcat, xport), spps (sav, zsav, por) and stata (dta) data files into/from pandas dataframes.
- Graphviz Requerido para trabajar con gráficos y arboles de decisión
- Teoría sobre probabilidad y estadística
- Estadística con Python
- Pensamiento probabilistico y matemáticas aplicadas
Algunos consejos:
Comenzar con los datos sin procesar y responder a cuatro preguntas básicas acerca de los mismos, que nos pueden ayudar a caracterizarlos.
- La primer pregunta se refiere a si los datos pueden tomar valores discretos o continuos.
- La segunda pregunta que nos debemos hacer, hace referencia a la simetría de los datos y si hay asimetría, en qué dirección se encuentra; en otras palabras, son los valores atípicos positivos y negativos igualmente probables o es uno más probable que el otro.
- La tercer pregunta abarca los límites superiores e inferiores en los datos; hay algunos datos, como los ingresos, que no pueden ser inferiores a cero, mientras que hay otros, como los márgenes de operación que no puede exceder de un valor (100%).
- La última pregunta se refiere a la posibilidad de observar valores extremos en la distribución; en algunos casos, los valores extremos ocurren con muy poca frecuencia, mientras que en otros, se producen con mayor frecuencia.
- https://platzi.com/datos/
- https://relopezbriega.github.io
- https://blog.adrianistan.eu
- https://aprendeconeli.com
- https://www.aprendemachinelearning.com/
- https://github.com/urcuqui/Ciencia-de-datos-ICESI
- https://github.com/donnemartin/interactive-coding-challenges
Enviame un pullrequest con un nuevo notebook con ejemplos detallados sobre algún tema de interés o contáctanos para poder colaborar
GNU General Public License v3.0