En este repositorio se puede encontrar un script de Python para la lectura de publicaciones y la extracción de características como número de figuras, links o el abstracto. En base a estas características, se genera un archivo PDF y varias figuras. Estos archivos continen los siguientes puntos de análisis:
- Nube de Palabras de los abstractos de todas las publicaciones. Se puede encontrar en los archivos:
reporte.pdf
yabstract-wordcloud.png
. - Número de Figuras por Publicación. Se puede encontrar en los archivos:
reporte.pdf
ynum-figures.png
. - Tabla con un listado de Links por Publicación. Solamente se puede encontrar únicamente en
reporte.pdf
.
En este archivo se puede comprender la ejecución del script.
Para poder usar este script, se puede hacer uso de manera local o mediante un conjunto de contenedores de Docker
Para poder ejecutar este script en local, se deben seguir una serie de pasos:
- Instalar Python preferiblemente la versión 3.11 o superior
- (Opcional) Instalar Anaconda y crear una ambiente para instalar las librerías requeridas
- Instalar poetry e instalar las librerias requeridas:
poetry shell && poetry install
- Instalar la librería del cliente de Grobid de Python. Esta librería se debe instalar manualmente para poder funcionar.
git clone https://github.com/kermitt2/grobid_client_python cd grobid_client_python python3 setup.py install
Posteriormente, se debe descargar e instalar Grobid. Se recomienda usar el servicio de Docker para poder ejecutar Grobid. De esta forma, será más fácil de ejecutar y gestionar. Para descargar la imagen del contenedor se puede usar el comando siguiente
docker pull lfoppiano/grobid:0.8.0
Como se mencionó previamente, se puede ejecutar de manera local o mediante Docker
Para poder ejecutar en local, se deberá:
- Mover todos las publicaciones para la lectura del script a la carpeta
/papers/
. - Activar el servidor de Grobid. Si se está usando la versión de docker de Grobid, se usa el siguiente comando:
docker run --rm --init --ulimit core=0 -p 8070:8070 lfoppiano/grobid:0.8.0
- Tras esperar un rato a la inicialización del servidor ( se deben cargar todos los modelos), se puede usar el script de Python mediante:
python report_generator.py
Al acabar el programa, se generarán los archivos solicitados en la carpeta /results/
Para poder ejecutar en local, se deberá:
- Mover todos las publicaciones para la lectura del script a la carpeta
/papers/
. - Crear carpeta
results
- Usar Docker Compose V2 para ejecutar imágenes del script
docker compose build docker compose run report-generator
Debido a que el script debe esperar a la inicialización del servicio de Grobid, pueden producirse errores y no leer todas las publicaciones dadas al script. En estos casos, se recomienda volver a ejecutar de nuevo y esperar previamente un par de segundos.