Skip to content

Latest commit

 

History

History
60 lines (47 loc) · 2.18 KB

README.md

File metadata and controls

60 lines (47 loc) · 2.18 KB

crawlurl - Check liste site web

langage Apache 2.0 Licence

Vérifie qu'une liste de site internet est bien en fonction. Transmet des informations sur la réponse de ces sites à une base de données. Affiche les indices de bon fonctionnement de ces sites sur Grafana.

Documentation

Exécution

Le script peut etre utilisé pour logger les indices ou les transmettre à InfluxDB qui affiche ces indices dans Grafana.

  • La variable d'environnement LIST est obligatoire, elle doit pointer sur le fichier yaml de configuration
  • Toutes les autres variables d'environnement concernent la base de données et sont donc optionnelles.
  • Si la variable d'environnement INFLUXDB-HOST est définie et n'est pas vide, crawlurl fonctionnera avec Grafana

Le fichier de configuration est rafraichi toutes les 30 secondes par défaut et une variable "refresh" dans ce dernier permet de définir cette période.

sans InfluxDB (indices loggés dans le terminal)

export LIST=${PWD}/list.yml
python check-url.py

avec InfluxDB

export "LIST=${PWD}/list.yml"
export "INFLUXDB-HOST=http://localhost:8086"
export "INFLUXDB-BUCKET=bucket"
export "INFLUXDB-TOKEN=token"
export "INFLUXDB-ORG=org"
python check-url.py

Docker

docker-compose build --no-cache && docker-compose up -d

Fonctionnalitées futures

  • Code fonctionnel (mais pas très optimisé ...)
  • Creation d'une variable "return" (on sait plus ce qu'elle fait)
  • Source url/mot file txt
  • Variabiliser la tempo entre chaque lot de test
  • Multithread des requêtes
  • Variabiliser le nombre de Thread
  • Support du format yaml pour le fichier source
  • Source url/mot db (mariadb)
  • Ajout d'informations dans le log json (taille de la page ...)

License

Ce projet est sous licence Apache 2.0 consulter le fichier LICENSE pour plus de détails.

Informations sur l'auteur

Ce projet a été créé par PG3 en décembre 2018. Ce projet a été maintenu par PG3 en juillet 2021.