Skip to content

Repositório para projeto utilizando spark e python(jupyter), e uma base de dados sobre a trilogia do Senhor dos Anéis

Notifications You must be signed in to change notification settings

wuldson-franco/mba-project-spark-lotr

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 

Repository files navigation

MBA-Project-LOTR

Project logo

Delta lake is an open-source project that enables building a Lakehouse architecture on top of existing storage systems such as S3, ADLS, GCS, and HDFS.

Status License


📝 Table of Contents

🧐 About

Pyspark Guide

Dados Relacionados a Trilogia da Franquia "O Senhor Dos Anéis", os dados em questão são trechos retirados das falas ditas por seus personagem nessa trilogia.

Nessa Análise estaremos realizando a tradução desses trechos para o português, verificando qual personagem possui maior e a menor quantidade de diálogo.

Fase 2: Processamentos, Refinamentos e Joins

São realizadas etapas de processamento em que são removidas colunas desnecessárias e preparação de tabelas com join para MDW modelagem com dados normalizados em formatos de conjunto de dados.

Teremos a responsabilidade de enriquecer os dados, neste processo é onde tratamos os dados e refinamos para a área de negócios ou quem irá consumir os dados.

img_lotr

🔧 Architeture ELT Delta lake

elt_delta

No projeto iremos lê os dados de um sistema de arquivos chamado landing-zone usando dependências de deltalake, que são pacotes .jar e estarão escritos na configuração de sessão do spark, com o qual é possível usar o framework Delta Lake. Após a execução deste script, os dados serão escritos no diretório passado no código, já dentro da tabela de escrita, será escrito um diretório chamado _delta_log, que é responsável por armazenar arquivos incrementais nos metadados da tabela, será algo como 000000000000000000000.json, 000000000000000000001.json...

O arquivo Json na pasta _delta_log terá as informações como add/remove parquet files (for Atomicity), stats (for optimized performance & data skipping), partitionBy for partition pruning), readVersions(for time travel), commitInfo(for audit).

⛏️ Built Using

✍️ Authors

About

Repositório para projeto utilizando spark e python(jupyter), e uma base de dados sobre a trilogia do Senhor dos Anéis

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published