TCV_P1_WebScraping

Práctica 1. Tipología y Ciclo de Vida de los Datos. Caso práctico de Web Scraping orientado a aprender a identificar los datos relevantes por un proyecto analítico y usar las herramientas de extracción de datos.

Estructura del proyecto.

main.py: este archivo es el punto de entrada a la aplicación y desde donde se llama al paquete principal
/src/scrapy.py: se implementa toda la logica del scraping la cual esta divida en 4 funciones.
- control(): cuya responsabilidad es controlar que solo se pueda hacer scraping una vez al día.
- get_nivel_1(): encargada de recuperar los datos del nivel 1
- get_nivel_2(): encargada de recuperar los datos del nivel 2
- create_csv(): encargada de escribir los datos capturados a un documento .csv guardado en el directorio /csv

Publicación del dataset.

El dataset obtenido ha sido publicado en https://zenodo.org/ con DOI:

Autores.

Francisco Javier Albarrán González
Enrique Villalobos Torregrosa

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
csv		csv
src		src
.gitignore		.gitignore
LICENSE		LICENSE
Práctica 1- Web scraping.pdf		Práctica 1- Web scraping.pdf
README.md		README.md
main.py		main.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

TCV_P1_WebScraping

Estructura del proyecto.

Publicación del dataset.

Autores.

About

Releases

Packages

Contributors 3

Languages

License

JAlbarrn/TCV_P1_WebScraping

Folders and files

Latest commit

History

Repository files navigation

TCV_P1_WebScraping

Estructura del proyecto.

Publicación del dataset.

Autores.

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Languages

Packages