⚠️ Esse README ainda esta sob construção
⚠️ Don't speak Portuguese? access the EN version
Sobre • Metodologia • Resultados • Arquivos • Conclusão • Creditos
O banco digital internacional chamado Alura Cash se encontra com um problema em que, recorrentemente, estão surgindo pessoas inadimplentes após a liberação de créditos. Por está razão, foi requisitado uma solução para diminuir as perdas financeiras geradas por pessoas mutuárias que não quitam suas dívidas. Sendo assim, o participante solicitou um conjunto de dados contendo as informações de clientes, da solicitação de empréstimo, do histórico de crédito, bem como se a pessoa mutuária é inadimplente ou não, a fim de realizar uma análise dos dados, de acordo, com o interesse das partes interessadas.
Para a realização do projeto requisitado, o mesmo será dividido entre 4 partes, que contemplaram as fases da pipeline de dados, sendo elas limpeza, Análise Exploratória, Modelagem e Visualização dos dados.
Na fase de limpeza os dados será certificado se os atributos e entidades são válidos, completos e limpos para permitir o inicio de qualquer análise. Uma boa adequação significa que os dados são relevantes e que vão ajudar a resolver o problema de negócios apresentado ou determinar um curso de ação para atingir o objetivo da alura cash.
Na fase de análise exploratória será usada de estatísticas para coletar, revisar, analisar e tirar conclusões de dados, bem como aplicar modelos matemáticos quantificados a variáveis. Além disso, na fase de modelagem, as estatísticas também estaram no centro dos algoritmos de machine learning produzidos, capturando e traduzindo padrões de dados em evidências acionáveis.
Por fim, será realizado um dashboard que contém indicadores e métricas referentes as descobertas durante o processo de análise dos dados. A fim de demonstrar para os stakehoadas uma noção global dos processos de liberação de créditos, visualizando também, de forma dinâmica e objetiva, dados referentes a inadimplencia de emprestimos na empresa.
Desse modo, cada uma também utilizará de softwares mais adequados para sua realização.
- Limpeza de dados: MySQL
- Análise Exploratória de Dados: Jupyter Notebook e Bibliotecas Python
- Modelagem dos Dados: Biblioteca Python Sklearn
- Visualização de dados: Power BI
Aqui se encontra resumido o que foi feito durante cada etapa
A limpeza de dados é o processo de corrigir ou remover dados incorretos, corrompidos, formatados incorretamente, duplicados ou incompletos em um conjunto de dados. Desse modo, foi identificado e corrigido os problemas encontrados no dataset da Alura Cash com a intenção de estruturar esses dados, de modo que, sejam consistentes e permitam uma análise autêntica ao requisitado pelas partes interessadas. Abaixo um resumo de quais foram essas mudanças e a justificativa para tais:
📂 Tabela: informações de clientes mutuários
- Excluiu linhas no atributo
person_id
que possui valores nulos, pois não podem existir dois clientes com o mesmo id; - Excluiu valores duplicados da coluna
person_id
; - Trasformou
person_id
em chave primaria, pois é um campo com valores exclusivos; - Traduziu os atributos de inglês para português para facilitar a interpretação;
- Trocou o tipo de dados da coluna
person_emp_length
de double para int, pois é um dado com números exatos. Outras colunas não apresentam o problema; - Foi identicado na coluna
idade
a presença de clientes com idade igual a 123 anos e 144 anos, o que não é possivel, visto que a pessoa mais velha da história chegou até 122 anos [1] . Esses dados forma substituidos pela média de idade no Brasil que é ≅ 77 anos [2]; - Foi identicado na coluna
tempo_de_serviço
a presença de clientes com tempo trabalhando igula a 123 anos, o que não é possivel, visto que a pessoa mais velha da história chegou até 122 e que o funcionário mais antigo do mundo trabalhou pro 84 anos [3] . Além disso, as idades informadas nestas linhas são de 21 e 22 anos, o que faz esse tempo de trabalho improvavel. Logo, esses dados foram substituidos pela média de tempo de trabalho a partir dessa idade, sendo esta ≅ 5 anos; - Foram corrigidos Dados Nulos;
📂 Tabela: Solicitação de empréstimo
- Excluiu linhas no atributo
loan_id
que possui valores nulos, pois não podem existir dois clientes com o mesmo id; - Excluiu valores duplicados da coluna
loan_id
; - Trasformou
loan_id
em chave primaria, pois é um campo com valores exclusivos; - Traduziu os atributos de inglês para português para facilitar a interpretação;
- Trocou o tipo de dados da coluna
loan_status
de int para BIT(1), pois é um dado do tipo booleano. Outras colunas não apresentam o problema; - Foram corrigidos Dados Nulos;
📂 Tabela: Histórico Referentes ao Banco
- Excluiu linhas no atributo
cb_id
que possui valores nulos, pois não podem existir dois clientes com o mesmo id; - Excluiu valores duplicados da coluna
cb_id
; - Trasformou
cb_id
em chave primaria, pois é um campo com valores exclusivos; - Traduziu os atributos de inglês para português para facilitar a interpretação;
- Foram corrigidos Dados Nulos;
📂 Tabela: Ids
- Adicionou Foreign Keys em
cb_id
,loan_id
eperson_id
;
Após a estruturação do banco de dados, as informações foram concatenadas e exportadas para um arquivo csv com a intenção de facilitar a análise exploratória de dados na proxima etapa. O banco de dados ficou da seguinte forma:
Para mais detalhes acesse o script das mudanças realizadas
- Dados "Crus" Link
- Dados processados pós limpeza de dados Link
- Notebooks da Análise Exploratória de Dados Link
- Notebooks da Modelagem de Dados Link
- Dashboard Link
Em linhas gerais, constatou-se que Lorem ipsum dolor sit amet. Verifica-se, portanto, consectetur adipiscing elit. Ademais, verifica-se sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.
Cabe destacar ainda que Lorem ipsum dolor sit amet.
- Challenge desenvolvido pelo Scuba Team da escola de tecnologia Alura