Ce référentiel GitHub dédié à mon projet d'alternance réalisé au sein du Conseil d'État, dans le cadre de mon Master 2 en Data Science : Santé, Assurance, Finance à l'Université de Paris-Saclay. Ce projet vise à automatiser la classification des séries de requêtes juridiques du Conseil d'État, un processus essentiel pour optimiser le traitement des données au sein de cette institution.
L'objectif majeur de ce projet était de développer une solution intelligente pour automatiser la classification des requêtes juridiques en fonction de leurs numéros de série associés. Cette initiative avait pour but d'améliorer l'efficacité, la précision et la fiabilité du processus de gestion des requêtes au sein du Conseil d'État.
Lien vers la visualisation interactive des embeddings t-SNE en 3D :
https://ahmedosman00py.github.io/CE-detection-series-de-requetes
Chaque dossier présent dans ce référentiel correspond à une section spécifique de mon rapport d'alternance, où j'ai détaillé les différentes étapes du projet et les résultats obtenus.
Voici un aperçu des sections disponibles :
- OCR (Reconnaissance Optique des caractères)
- Données (Traitement des données)
- Exploration des données
- Text Processing (Traitement du texte)
- Réduction de dimension
- Stratégie de division des données
- Algorithmes de Machine Learning
- Fine-Tuning
- Évaluation des performances (Benchmark)
- Application
Pour préserver la confidentialité des données et respecter les politiques de sécurité du Conseil d'État, les données sensibles ne sont pas incluses dans ce référentiel public. Le code présenté ici est destiné à illustrer les méthodologies et les étapes clés du projet.
Ce référentiel a été créé dans un but éducatif et illustratif. Il ne prétend pas représenter l'intégralité du projet, mais plutôt à fournir un aperçu des principales étapes et méthodes utilisées.
Ce projet est distribué sous la GNU General Public License v3.0. Veuillez vous référer au fichier LICENSE pour plus de détails.