-
Dataset no GitHub: os dados são fictícios da empresa Netflix.
-
Pacotes utilizados: pip install pandas pip install openpyxl pip install xlsxwriter
-
Virtual Enviroment ou ambiente virtual: serve para encapsular a aplicação, sem ficar prezo a versões diferentes. Mais informações sobre ambiente virtuais em python, basta acessar o link. Para criar e ativar um ambiente:
python -m venv venv venv/scripts/activate
Caso esteja no windows e o powershell apresentar uma restrinção. Vá no Windows Powershell(Admin), e usar o comando;
Set-ExecutionPolicy -Scope CurrentUser -ExecutionPolicy RemoteSigned
-
Código Fonte (src): Códigos fontes e arquivos do projeto, dataset etc.
- Na pasta (data) é armazenado os dados, que estão divididos entre:
- raw: todos os dados de maneira bruta ou cru;
- ready: dados tratados, ou seja, passou pelo seu respectivo processo de tratamento.
- Em (scripts) é armazenados outros códigos relacionados a outras execuções
- Na pasta (data) é armazenado os dados, que estão divididos entre:
A técnica utilizada foi a ETL (extrair, transformar e carregar), prezanda pela confiabilidade e rastreabilidade dos dados.
Os dados brutos estão localizados na pasta raw, e foram extraidos do Dataset no GitHub.
Para a transformação dos dados brutos é sugerido colocar todas as tabelas em um único aquivo (.xlsx). A adição das colunas "location" e "file_name" é para validar a rastreabilidade dos dados.
Por fim, os dados são carregados na ready e estão disponíveis para a análise de BI.