Skip to content

Desafio em grupo referente a trilha de estudos sobre Python da Alpha EdTech.

License

Notifications You must be signed in to change notification settings

janascher/desafio-eng-de-dados-prouni

Repository files navigation

Alpha EdTech

Desafio Engenharia de Dados

🚧 ProUni 📚 Em construção... 🚀 🚧

🧐 Objetivo da equipe

O tema proposto pela equipe é realizar uma análise do perfil dos beneficiários por sexo e raça/cor para identificar se existe alguma disparidade na concessão de bolsas com base nessas características.

✨ Requisitos do desafio

Neste desafio, proposto pelo programa Alpha EdTech, os grupos são criados pelos professores e deverá ser realizado os processos de "coleta", 'limpeza", "análise" e "visualização" de dados da Administração Pública brasileira tendo como requisitos:

  • Uso das informações coletadas de um site da administração pública:
    • Uso da biblioteca Pandas;
    • Este processo poderá estático, isto é, a coleta pode ser feita em apenas uma etapa sem a necessidade de processamento dinâmico de informações;
    • A coleta normalmente será realizada processando-se um arquivo do tipo CSV por meio do uso do Pandas;
    • Deve-se realizar um tratamento para remover os dados não relevantes para o fim da aplicação ("limpeza").
    • Links de referências (não se restringindo a apenas estes):
  • Uso de banco de dados relacional:
    • Uso do Postgres;
    • Mínimo de 5 tabelas;
    • As tabelas principais devem ter no mínimo 10 mil registros cada;
    • Não há a necessidade de uso de Spark, bastando o uso de Pandas;
    • Utilizar comandos SQL para o cruzamento das informações.
  • Implementar e detalhar um processamento segmentado em no mínimo 3 zonas:
    • raw (dado cru);
    • curated (dado limpo); e
    • analytics (dado analisado).
  • Montagem do data warehouse com as informações das tabelas:
    • Devem utilizar algoritmos que demonstram a habilidade em estrutura de dados e complexidade de algoritmos.
  • Visualização dos dados analisados usando Dash;
  • Uso da análise estatística dos dados usando Plotly:
    • Uso de estatística básica;
    • Não é necessário o uso de regressões.

📌 Regras da equipe

Sobre as atividades:

  • Atualizar a versão atual com a remota;
  • Criar ou voltar para branch;
  • Adicionar e escolher uma atividade no Trello;
  • Ao concluir uma atividade, abrir uma PR (pull request);
  • Após atualizar na branch main, marcar a atividade como concluída no Trello.

Sobre Pull Request (PR):

  1. É proibido realizar commits e push na branch main;
  2. Ir para branch main, realizar fetch e merge e com a origin/main;
  3. Retornar a sua topic branch e realizar merge com a main. Observação: resolver os conflitos caso exista;
  4. Fazer push com repositório remoto;
  5. Abrir a PR e solicitar via Whatsapp para que os demais possam revisar;
  6. Pelo menos um revisor deve aprovar ou solicitar explicitamente quais correções devem ser feitas;
  7. Somente após todas as correções terem sido realizadas e, pelo menos um revisor ter aprovado, que o responsável da PR pode realizar o merge na main. Observação: caso na hora de realizar o merge o GitHub acusar algum conflito, a PR deve ir para o estado de draft e retornar para o passo 2;
  8. Após concluir uma PR, fica ao critério da pessoa em apagar ou não a topic branch.

🛠 Tecnologias

Dependências

Utilitários

🔗 Referências

📝 Licença

Esse repositório está licenciado pela Mit License. Para mais informações detalhadas, leia o arquivo License contido nesse repositório.

👨‍💻 Equipe

Akira Couzack
Akira Couzack

🚀
Antônio dos Santos
Antônio dos Santos

🚀
Gustavo Souza
Gustavo Souza

🚀
Janaína Scher
Janaína Scher

🚀
Vitória Feitosa
Vitória Feitosa

🚀

About

Desafio em grupo referente a trilha de estudos sobre Python da Alpha EdTech.

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 4

  •  
  •  
  •  
  •  

Languages