Skip to content

alvesmatheus/fala-camarada

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

17 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Fala Camarada

Reunindo tudo o que se fala na Câmara dos Deputados.

Acesso aos dados

Os dados extraídos através do Fala Camara estão disponíveis para download aqui.

Como executar

🔻 Esse tutorial assume que você possui a linguagem Python 3.0+ instalada em sua máquina, bem como as bibliotecas Scrapy, Beautiful Soup e Pandas.

Inicialmente, clone esse repositório.

$ git clone https://github.com/alvesmatheus/fala-camarada.git

Acesse o diretório do repositório clonado.

$ cd fala-camarada

A seguir, antes de obter os discursos das comissões da Câmara dos Deputados, você precisará extrair a agenda de eventos destas comissões. Para isso, execute o comando a seguir.

$ scrapy crawl coletor-eventos-comissoes -o data/raw/agenda_comissoes.csv

Com a agenda de eventos das comissões já extraída, substitua a variável ano no comando abaixo por um valor entre 1995 e 2021 (inclusos) e execute-o. Os dados extraídos estarão disponíveis no diretório fala-camarada/data/raw/.

❗ Alterações no código-fonte podem ser necessárias para extração de discursos de outros anos.
$ scrapy crawl coletor-discursos-comissoes -o data/raw/discursos_comissoes_<ano>.csv -a year=<ano>

[Opcional] Quando a extração dos discursos de comissões for concluída para todos os anos de seu interesse, execute o script de limpeza de dados disponibilizado. Os dados produzidos estarão disponíveis no diretório fala-camarada/data/ready/.

$ python scripts/clean_data.py 

[Opcional] O script run-collectors.sh pode ser utilizado para executar, sequencialmente, todos os coletores referentes ao período supracitado e, em seguida, a limpeza dos dados extraídos.

About

Reunindo tudo o que se fala na Câmara dos Deputados.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published