Skip to content

Eonm/theses-fr-dumper

Repository files navigation

Theses.fr dumper

Build Status Coverage Status made-with-Rust License: MIT dependency status

Theses.fr dumper permet de récupérer les données de theses.fr par lots.

Usage

en utilisant un fichier de sortie

theses-fr-dumper -s 0 15 30 -f jsonl -o dump.jsonl

en utilisant un pipe

theses-fr-dumper -s 0 15 30 -f jsonl | grep -i "lorem ipsum"

Création d'une séquence de téléchargement -s num num num

La séquence de téléchargement s'exprime de la façon suivante : -s début incrément fin.

Si aucune séquence de téléchargement n'est spécifiée theses.fr dumper téléchargera l'ensemble des notices par lot de 10 000.

Formats de récupération des données -f

  • CSV
  • Json
  • Jsonl
  • XML (à venir)

Fichier de sortie -o

Cet argument permet de préciser le fichier de sortie. Si un fichier existe déjà son contenu sera effacé.

Sans l'argument -o les informations récupérées du serveur sont affichées dans directement dans console.

Mode de connexion -m keep-alive/reset

Theses.fr dumper permet de grader la connexion ouverte avec le serveur grâce à l'option -m keep-alive. Tous les lots seront téléchargé par la même connexion.

⚠️ L'option keep-alive peut entraîner un time out côté serveur. Par défaut chaque téléchargement de lots entraîne la création d'une nouvelle connexion avec le serveur.

Build

cargo build --release

Test

cargo test