Skip to content

kebiri-isam-dine/Implementation-d-une-solution-ETL-et-gestion-des-BigData-sous-Talend

Repository files navigation

Implémentation d'une solution ETL pour l'intégration de données et gestion des BigData sous Talend

GitHub GitHub last commit GitHub contributors

GitHub dev_language GitHub dev_language GitHub dev_language

GitHub Org's stars GitHub followers

About The Project

Ce projet consiste à implémenter une solution ETL (Extract-transform-load) sous Talend Open Studio pour une intégration de différentes sources de données et notamment avec des scripts en java, les taches à réaliser sont :

  • Implémenter des jobs
  • Réaliser des mapping avec les flux de données
  • Orchestrer plusieurs jobs et créations des routines pour transformation de données
  • Intégration de deux bases de données : PostgreSQL et Oracle
  • Définition des schémas de métadonnées
  • Automatisation avec des scripts exécutable
  • Gestion des grosses sources de données (Big Data)

context

  • Migration de données à un nouveau système
  • Stockage de données dans des entrepôts de données
  • Consolidation de données (fusion d'entreprises)
  • Synchronisation de données
  • Lectures de différents DBs ou fichiers (csv, txt, xlsx, xml ou plat)
  • Intégration décisionnelle et opérationnelle

Keywords

Talend - java - jobs - PostgreSQL - Oracle

Data

Dataset

Le dossier des fichiers csv, xml, xlsx et txt de notre Dataset se trouve ici

Databases

  • Pour la base de données PostgreSQL, lancer le script ScriptsBDD.sql pour avoir les quatre tables : Clients, Clients_details, Individus et Individus_Details dans votre serveur localhost
  • Pour la base de données Oracle, nous créerons les tables avec des jobs

Jobs

Jobs Composant_Inputs Composant_Outputs Description du job
Id1 Fichier_Individus.csv Individus.xml Lire un csv et le transformer en xml
Id2 Fichier_Individus.csv Individus_MAJ.csv Mettre la colonne nom en MAJ
Id3 Fichier_Individus.csv & Activite_Individus.txt Id3IndividuOutput.csv & Id3IndividuOutput.xml csv + txt to csv & xml.
Ajout de la colone type_sport présente dans txt au fichier csv
Id4 Data Data_csv connexion de type Iterate qui copie (ou déplace) les fichiers .csv du dossier Data et les enregistre dans un sous fichier de csv Data_csv
Id5 Id3 Id4 Trigger qui se déclenche si le job Id3 est OK pour exécuter le sous-job Id4
Id6 Fichier_Individus.csv Table Individus de la BD PostgreSQL Alimentation de la table BD PostgreSQL Individus à partir du fichier csv Fichier_Individus.csv
Id7 clients.csv & SexePersonne.csv & MarqueVoiture.csv Table ClientsDetails de la BD PostgreSQL Jointure entre trois fichiers csv : clients.csv, SexePersonne.csv, MarqueVoiture.csv et Insertion dans la table de la BD PostgreSQL ClientsDetails
Id8 Table ClientsDetails de la BD PostgreSQL Table ClientsDetails de la BD Oracle Copie de la table ClientsDetails de la base de données PostgreSQL à la base de données Oracle

Taches réalisées

  • Créations et configuration des jobs composée de plusieurs composants reliés par des connexions
  • Exécution des jobs et débogage du code
  • Transformation sur des fichiers csv, xml, txt et xlsx
  • Implémenter des Trigger qui se déclenchent lors d'événements
  • Ajout des contextes pour automatiser le travail
  • Alimentation des tables de bases de données relationnelles
  • Copie des tables entre deux bases de données

Visualisation des processus

  • Job Id1 & Id2 :

  • Job Id5 (Trigger) :

  • Job Id7 (BD PostgreSQL) :

License

GPL-3.0

Contact

📫 How to reach me: kebiri.isam.dine@gmail.com

🌐 My Portfolio: https://kebiri-isam-dine.github.io/

🔗 Project Link: https://github.com/kebiri-isam-dine/Implementation-d-une-solution-ETL-et-gestion-des-BigData-sous-Talend

About

Intégration de différentes sources et bases de données sous Talend Open Studio

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages