- Tarcídio Antônio Júnior - 10748347
- Rafael Kuhn Takano - 11200459
- Igor Antunes Boson Paes - 11200571
Ciência de Dados extrai conclusões a partir de dados brutos utilizando estatística e técnicas de aprendizagem de máquina. Na primeira etapa, faz-se o pré-processamento que resume-se em, nesta ordem, extrair os dados, limpá-los e visualizá-los. A última é de grande importância para guiar as etapas de análise, provendo ótimas noções de como os dados se comportam, ideias de como explorá-los, além de encurtar o tempo de entendimento para aqueles não são familiarizado com o assunto.
Para entender praticando, o grupo utilizar um conjunto de dados extraídos do Spotify (utilizando sua API). Neste documento, encontra-se visualizações detalhando os diversos atributos, seja categóricos ou numéricos, do dataset. Quando possível, os autores expressam suas conclusões sobre os dados em diferentes momentos.
Para elaboração, utilizou-se a linguagem Python e, principalmente, as bibliotecas Pandas, Matplotlib, Seaborn e Numpy. Algumas das inúmeras ferramentas visuais utilizadas foram:
- Mapa de calor
- Gráfico de barras
- Gráfico de dispersão
- Coordenadas paralelas
- Boxplot
- Gráfico de linhas
- Treemap
Por fim, vale ressaltar que toda a explicação da extração destes dados encontra-se no perfil do Zaheen Hamidani na Kaggle, plataforma para aprendizado de ciências de dados. Cada atributo do dataset será explicado, porém as mesmas informações podem ser encontradas no Spotify For Developers, site que documenta a API do Spotify.
Instituto de Ciências Matemáticas e de Computação (ICMC) - Universidade de São Paulo (USP)