Skip to content

Latest commit

 

History

History
46 lines (44 loc) · 3.81 KB

readme.md

File metadata and controls

46 lines (44 loc) · 3.81 KB

Big Data - Clasificador de tweets en tiempo real

imgnifi10

Repositorio del proyecto final del curso Big Data y Business Intelligence de Vitoria-Gasteiz.

El proyecto surge como iniciativa de los propios alumnos, al ver posibilidad de gestionar de forma más eficaz las demandas de los usuarios en redes sociales en relación con organismos gubernamentales.

Se trata de un proyecto Big Data completo, donde se analizan tweets en tiempo real y mediante técnicas de machine learning los clasifican como queja o no_queja. Una vez clasificados se proporciona una visualización del análisis en diversas herramientas Business Intelligence.


Herramientas:

El proyecto tiene la siguiente estructura:

  • Mediante la API de Twitter se establece un streaming de tweets con Nifi.
  • Se cargan lo tweets desde Nifi a Kafka.
  • Mediante Spark Streamin se establece un streaming de tweets con Kafka.
  • Se hace una predicción mediante un algortimo Naive Bayes Classifier que clasifica los tweets (queja, no_queja).
  • Los tweets clasificados se cargan en Kafka mediante un Producer en PySpark.
  • Con Nifi se cargan los tweets clasificados desde Kafka a MongoDB.
  • Desde las herramientas de Business Intelligence se utiliza la API Simba para establecer una conexión con MongoDB para la visualización de los datos.

Equipo:

Daniel Álvarez: Arquitectura con Hortonworks, Kafka, Spark y Nifi.
Jesús Fuerte: Arquitectura con Hortonworks, Kafka, Spark y Nifi.
Arkaitz Merino: Programador Spark/Python.
Oscar Bartolomé: Programador Spark/Python.
Helton Borges: Programador Spark/Python.
Unai Barredo: Machine Learning con Python.
Odei Barredo: Machine Learning con R.
Alexander Somovilla: Machine Learning con R.
Mikel Ramos: Bases de datos con MongoDB.
Virginia Esquinas: Bases de datos con MongoDB.
Blanca Soto: Bases de datos con MongoDB.
Esperanza García: Divulgación en medios y documentación.
Jorge Iñiguez De Ciriano: Documentación y diseño de BI.
Mónica Vázquez: Branding y comunicación.
Daniel Redondo: Visualización y reporting con QlikView.
Miriam Insagurbe: Visualización y reporting con Power BI.
Julen Manzano: Tutor

imgequipo