Implémentation d'une solution ETL pour l'intégration de données et gestion des BigData sous Talend

About The Project

Ce projet consiste à implémenter une solution ETL (Extract-transform-load) sous Talend Open Studio pour une intégration de différentes sources de données et notamment avec des scripts en java, les taches à réaliser sont :

Implémenter des jobs
Réaliser des mapping avec les flux de données
Orchestrer plusieurs jobs et créations des routines pour transformation de données
Intégration de deux bases de données : PostgreSQL et Oracle
Définition des schémas de métadonnées
Automatisation avec des scripts exécutable
Gestion des grosses sources de données (Big Data)

context

Migration de données à un nouveau système
Stockage de données dans des entrepôts de données
Consolidation de données (fusion d'entreprises)
Synchronisation de données
Lectures de différents DBs ou fichiers (csv, txt, xlsx, xml ou plat)
Intégration décisionnelle et opérationnelle

Keywords

Talend - java - jobs - PostgreSQL - Oracle

Data

Dataset

Le dossier des fichiers csv, xml, xlsx et txt de notre Dataset se trouve ici

Databases

Pour la base de données PostgreSQL, lancer le script ScriptsBDD.sql pour avoir les quatre tables : Clients, Clients_details, Individus et Individus_Details dans votre serveur localhost
Pour la base de données Oracle, nous créerons les tables avec des jobs

Jobs

Jobs	Composant_Inputs	Composant_Outputs	Description du job
Id1	Fichier_Individus.csv	Individus.xml	Lire un csv et le transformer en xml
Id2	Fichier_Individus.csv	Individus_MAJ.csv	Mettre la colonne nom en MAJ
Id3	Fichier_Individus.csv & Activite_Individus.txt	Id3IndividuOutput.csv & Id3IndividuOutput.xml	csv + txt to csv & xml. Ajout de la colone type_sport présente dans txt au fichier csv
Id4	Data	Data_csv	connexion de type Iterate qui copie (ou déplace) les fichiers .csv du dossier Data et les enregistre dans un sous fichier de csv Data_csv
Id5	Id3	Id4	Trigger qui se déclenche si le job Id3 est OK pour exécuter le sous-job Id4
Id6	Fichier_Individus.csv	Table `Individus` de la BD PostgreSQL	Alimentation de la table BD PostgreSQL `Individus` à partir du fichier csv Fichier_Individus.csv
Id7	clients.csv & SexePersonne.csv & MarqueVoiture.csv	Table `ClientsDetails` de la BD PostgreSQL	Jointure entre trois fichiers csv : clients.csv, SexePersonne.csv, MarqueVoiture.csv et Insertion dans la table de la BD PostgreSQL `ClientsDetails`
Id8	Table `ClientsDetails` de la BD PostgreSQL	Table `ClientsDetails` de la BD Oracle	Copie de la table `ClientsDetails` de la base de données PostgreSQL à la base de données Oracle

Taches réalisées

Créations et configuration des jobs composée de plusieurs composants reliés par des connexions
Exécution des jobs et débogage du code
Transformation sur des fichiers csv, xml, txt et xlsx
Implémenter des Trigger qui se déclenchent lors d'événements
Ajout des contextes pour automatiser le travail
Alimentation des tables de bases de données relationnelles
Copie des tables entre deux bases de données

Visualisation des processus

Job Id1 & Id2 :

Job Id5 (Trigger) :

Job Id7 (BD PostgreSQL) :

License

GPL-3.0

Contact

📫 How to reach me: kebiri.isam.dine@gmail.com

🌐 My Portfolio: https://kebiri-isam-dine.github.io/

🔗 Project Link: https://github.com/kebiri-isam-dine/Implementation-d-une-solution-ETL-et-gestion-des-BigData-sous-Talend

Name		Name	Last commit message	Last commit date
Latest commit History 28 Commits
Captures		Captures
Data		Data
Inputs		Inputs
Outputs		Outputs
process		process
sqlPatterns		sqlPatterns
temp/lib		temp/lib
.gitignore		.gitignore
.project		.project
LICENSE		LICENSE
README.md		README.md
ScriptsBDD.sql		ScriptsBDD.sql
talend.project		talend.project

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Implémentation d'une solution ETL pour l'intégration de données et gestion des BigData sous Talend

About The Project

context

Keywords

Data

Dataset

Databases

Jobs

Taches réalisées

Visualisation des processus

License

Contact

About

Releases

Packages

License

kebiri-isam-dine/Implementation-d-une-solution-ETL-et-gestion-des-BigData-sous-Talend

Folders and files

Latest commit

History

Repository files navigation

Implémentation d'une solution ETL pour l'intégration de données et gestion des BigData sous Talend

About The Project

context

Keywords

Data

Dataset

Databases

Jobs

Taches réalisées

Visualisation des processus

License

Contact

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Packages