Skip to content

Nesse challenge será desenvolvido para o banco digital internacional Alura Cash um conjunto de análises e modelos de machine learning supervisionados.

License

Notifications You must be signed in to change notification settings

CatarinaRRF/Challenge-Alura-Cash-19-08-22

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

38 Commits
 
 
 
 
 
 
 
 

Repository files navigation

⚠️ Esse README ainda esta sob construção

⚠️ Don't speak Portuguese? access the EN version


logo

Challenge Dados 1° Edição - Alura Cash

GitHub last commit

SobreMetodologiaResultadosArquivosConclusãoCreditos

Sobre

O banco digital internacional chamado Alura Cash se encontra com um problema em que, recorrentemente, estão surgindo pessoas inadimplentes após a liberação de créditos. Por está razão, foi requisitado uma solução para diminuir as perdas financeiras geradas por pessoas mutuárias que não quitam suas dívidas. Sendo assim, o participante solicitou um conjunto de dados contendo as informações de clientes, da solicitação de empréstimo, do histórico de crédito, bem como se a pessoa mutuária é inadimplente ou não, a fim de realizar uma análise dos dados, de acordo, com o interesse das partes interessadas.

Metodologia

Para a realização do projeto requisitado, o mesmo será dividido entre 4 partes, que contemplaram as fases da pipeline de dados, sendo elas limpeza, Análise Exploratória, Modelagem e Visualização dos dados.

Na fase de limpeza os dados será certificado se os atributos e entidades são válidos, completos e limpos para permitir o inicio de qualquer análise. Uma boa adequação significa que os dados são relevantes e que vão ajudar a resolver o problema de negócios apresentado ou determinar um curso de ação para atingir o objetivo da alura cash.

Na fase de análise exploratória será usada de estatísticas para coletar, revisar, analisar e tirar conclusões de dados, bem como aplicar modelos matemáticos quantificados a variáveis. Além disso, na fase de modelagem, as estatísticas também estaram no centro dos algoritmos de machine learning produzidos, capturando e traduzindo padrões de dados em evidências acionáveis.

Por fim, será realizado um dashboard que contém indicadores e métricas referentes as descobertas durante o processo de análise dos dados. A fim de demonstrar para os stakehoadas uma noção global dos processos de liberação de créditos, visualizando também, de forma dinâmica e objetiva, dados referentes a inadimplencia de emprestimos na empresa.

Tecnologias

Desse modo, cada uma também utilizará de softwares mais adequados para sua realização.

  • Limpeza de dados: MySQL
  • Análise Exploratória de Dados: Jupyter Notebook e Bibliotecas Python
  • Modelagem dos Dados: Biblioteca Python Sklearn
  • Visualização de dados: Power BI

Resultados

Aqui se encontra resumido o que foi feito durante cada etapa

Limpeza de Dados

A limpeza de dados é o processo de corrigir ou remover dados incorretos, corrompidos, formatados incorretamente, duplicados ou incompletos em um conjunto de dados. Desse modo, foi identificado e corrigido os problemas encontrados no dataset da Alura Cash com a intenção de estruturar esses dados, de modo que, sejam consistentes e permitam uma análise autêntica ao requisitado pelas partes interessadas. Abaixo um resumo de quais foram essas mudanças e a justificativa para tais:

📂 Tabela: informações de clientes mutuários

  • Excluiu linhas no atributo person_id que possui valores nulos, pois não podem existir dois clientes com o mesmo id;
  • Excluiu valores duplicados da coluna person_id;
  • Trasformou person_id em chave primaria, pois é um campo com valores exclusivos;
  • Traduziu os atributos de inglês para português para facilitar a interpretação;
  • Trocou o tipo de dados da coluna person_emp_length de double para int, pois é um dado com números exatos. Outras colunas não apresentam o problema;
  • Foi identicado na coluna idade a presença de clientes com idade igual a 123 anos e 144 anos, o que não é possivel, visto que a pessoa mais velha da história chegou até 122 anos [1] . Esses dados forma substituidos pela média de idade no Brasil que é ≅ 77 anos [2];
  • Foi identicado na coluna tempo_de_serviço a presença de clientes com tempo trabalhando igula a 123 anos, o que não é possivel, visto que a pessoa mais velha da história chegou até 122 e que o funcionário mais antigo do mundo trabalhou pro 84 anos [3] . Além disso, as idades informadas nestas linhas são de 21 e 22 anos, o que faz esse tempo de trabalho improvavel. Logo, esses dados foram substituidos pela média de tempo de trabalho a partir dessa idade, sendo esta ≅ 5 anos;
  • Foram corrigidos Dados Nulos;

📂 Tabela: Solicitação de empréstimo

  • Excluiu linhas no atributo loan_id que possui valores nulos, pois não podem existir dois clientes com o mesmo id;
  • Excluiu valores duplicados da coluna loan_id;
  • Trasformou loan_id em chave primaria, pois é um campo com valores exclusivos;
  • Traduziu os atributos de inglês para português para facilitar a interpretação;
  • Trocou o tipo de dados da coluna loan_status de int para BIT(1), pois é um dado do tipo booleano. Outras colunas não apresentam o problema;
  • Foram corrigidos Dados Nulos;

📂 Tabela: Histórico Referentes ao Banco

  • Excluiu linhas no atributo cb_id que possui valores nulos, pois não podem existir dois clientes com o mesmo id;
  • Excluiu valores duplicados da coluna cb_id;
  • Trasformou cb_id em chave primaria, pois é um campo com valores exclusivos;
  • Traduziu os atributos de inglês para português para facilitar a interpretação;
  • Foram corrigidos Dados Nulos;

📂 Tabela: Ids

  • Adicionou Foreign Keys em cb_id, loan_id e person_id;

Após a estruturação do banco de dados, as informações foram concatenadas e exportadas para um arquivo csv com a intenção de facilitar a análise exploratória de dados na proxima etapa. O banco de dados ficou da seguinte forma:

Banco de dados antes de Alterações

Banco de dados depois de Alterações

Para mais detalhes acesse o script das mudanças realizadas

Análise Exploratória de Dados

Visualização de Dados

Arquivos

  • Dados "Crus" Link
  • Dados processados pós limpeza de dados Link
  • Notebooks da Análise Exploratória de Dados Link
  • Notebooks da Modelagem de Dados Link
  • Dashboard Link

Conclusão

Em linhas gerais, constatou-se que Lorem ipsum dolor sit amet. Verifica-se, portanto, consectetur adipiscing elit. Ademais, verifica-se sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.

Cabe destacar ainda que Lorem ipsum dolor sit amet.

Creditos

  • Challenge desenvolvido pelo Scuba Team da escola de tecnologia Alura

logo

About

Nesse challenge será desenvolvido para o banco digital internacional Alura Cash um conjunto de análises e modelos de machine learning supervisionados.

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published