Reunindo tudo o que se fala na Câmara dos Deputados.
Os dados extraídos através do Fala Camara estão disponíveis para download aqui.
🔻 Esse tutorial assume que você possui a linguagem Python 3.0+ instalada em sua máquina, bem como as bibliotecas Scrapy, Beautiful Soup e Pandas.
Inicialmente, clone esse repositório.
$ git clone https://github.com/alvesmatheus/fala-camarada.git
Acesse o diretório do repositório clonado.
$ cd fala-camarada
A seguir, antes de obter os discursos das comissões da Câmara dos Deputados, você precisará extrair a agenda de eventos destas comissões. Para isso, execute o comando a seguir.
$ scrapy crawl coletor-eventos-comissoes -o data/raw/agenda_comissoes.csv
Com a agenda de eventos das comissões já extraída, substitua a variável ano
no comando abaixo por um valor entre 1995
e 2021
(inclusos) e execute-o. Os dados extraídos estarão disponíveis no diretório fala-camarada/data/raw/
.
$ scrapy crawl coletor-discursos-comissoes -o data/raw/discursos_comissoes_<ano>.csv -a year=<ano>
[Opcional] Quando a extração dos discursos de comissões for concluída para todos os anos de seu interesse, execute o script de limpeza de dados disponibilizado. Os dados produzidos estarão disponíveis no diretório fala-camarada/data/ready/
.
$ python scripts/clean_data.py
[Opcional] O script run-collectors.sh
pode ser utilizado para executar, sequencialmente, todos os coletores referentes ao período supracitado e, em seguida, a limpeza dos dados extraídos.