Práctica 1 - Tipologia y ciclo de vida de los datos (Web Scrapping)

El objetivo que persigue la práctica es generar un dataset a partir de un sitio web. En el proyecto han participado:

Rafael Jimenez Sarmentero
Jorge Marchán Gutiérrez

Estructura del proyecto

El fichero principal que tendremos que lanzar con el CLI es main.py, el resto del codigo de la aplicación lo podemos encontrar dentro del directorio src, en este directorio encontramos dos subdirectorios, scrappers y utils, el primero de ellos contiene los diferentes scrappers, el de la búsqueda y el del detalle del alojamiento. Y en el directorio de utils encontramos un fichero que contiene la funcion para pasar de una lista de diccionarios a csv.

DOI.z del fichero generado

Memoría de la práctica

La memoría de la práctica la podéis encontrar en el fichero PRA1.pdf

Requisitos

Primero necesitaremos instalar las dependencias de la aplicación

pip install -r requirements.txt

Una parte del scrapper está desarrollado con Selenium, en el proyecto encontramos los ficheros chromedriver correspondientes para nuestros sistemas operativos, para otro caso habrá que descargar el fichero correspondiente de aquí

Puesta en marcha

Se trata de una aplicación CLI que acepta varios parámetros, los más interesantes son el número de páginas de resultados a tratar y el término de búsqueda, el comando con el que se ha empezado a desarrollar es el siguiente:

# Scrapper de las tres primeras páginas de la búsqueda sobre madrid (modo Headless)
python main.py -p 3 -s madrid -H

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
img		img
src		src
.editorconfig		.editorconfig
.gitignore		.gitignore
PRA1.docx		PRA1.docx
PRA1.pdf		PRA1.pdf
README.md		README.md
chromedriver_linux		chromedriver_linux
chromedriver_macosx		chromedriver_macosx
data.csv		data.csv
main.py		main.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Práctica 1 - Tipologia y ciclo de vida de los datos (Web Scrapping)

Estructura del proyecto

DOI.z del fichero generado

Memoría de la práctica

Requisitos

Puesta en marcha

About

Releases

Packages

Contributors 2

Languages

jorma16/PRA1_TCD

Folders and files

Latest commit

History

Repository files navigation

Práctica 1 - Tipologia y ciclo de vida de los datos (Web Scrapping)

Estructura del proyecto

DOI.z del fichero generado

Memoría de la práctica

Requisitos

Puesta en marcha

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages