Práctica 1. Tipología y Ciclo de Vida de los Datos. Caso práctico de Web Scraping orientado a aprender a identificar los datos relevantes por un proyecto analítico y usar las herramientas de extracción de datos.
- main.py: este archivo es el punto de entrada a la aplicación y desde donde se llama al paquete principal
- /src/scrapy.py: se implementa toda la logica del scraping la cual esta divida en 4 funciones.
- control(): cuya responsabilidad es controlar que solo se pueda hacer scraping una vez al día.
- get_nivel_1(): encargada de recuperar los datos del nivel 1
- get_nivel_2(): encargada de recuperar los datos del nivel 2
- create_csv(): encargada de escribir los datos capturados a un documento .csv guardado en el directorio /csv
El dataset obtenido ha sido publicado en https://zenodo.org/ con DOI:
Francisco Javier Albarrán González
Enrique Villalobos Torregrosa