Ce dépôt contient les fichiers de :
- la présentation "Fine-tuning d'un LLM"
- les notebooks du TP
- le code source de l'outil
dataforge
pour créer un dataset sur mesure à partir de documents : code source
Les modèles générés sont disponibles sur Huggingface :
J'ai utilisé quelques numéros du journal Métropole (janvier 2023 -> mars 2024) pour générer un dataset de quelques milliers de question/réponse au sujet d'Angers Loire Métropole.
J'ai également utilisé le dernier rapport du GIEC (AR6 Full Report) pour tester dataforge
.