O Projeto Final do Curso de Engenharia de Dados da SoulCode Academy consiste no ETL(Extract, Transform and Load) de 2 Datasets escolhidos pela equipe de acordo com o tema. Onde os dois arquivos devem ser tratados, modelados organizados com a utilização das tecnologias vistas ao longo do curso, Google Cloud Platform, Python, Pandas, PySpark, SparkSQL, Cloud Storage, Big Query e Data Studio. Além do processo de ETL foi feita a análise dos Dados para gerar insights a partir deles.
Os Datasets foram escolhidos a partir do site https://www.data.gov/, um site que armazenar dados abertos do Governo dos Estados Unidos. Os datasets selecionados foram os dados de Hospitalização por COVID-19 dos Condados de Connecticut em JSON e os dados de Vacinação dos Condados de Connecticut em CSV.