GitHub - ogecece/transparencia: Guia de como montar seu próprio sistema automático de download de dados do Portal da Transparência. Com análise de dados :)

Passo-a-passo

Versão do Python: 3.6.6

git clone https://github.com/giuliocc/transparencia.git
pip3 install -r requirements.txt
scrapy startproject transparencia
cd transparencia/transparencia/spiders
scrapy genspider planilhas
Analise o fluxo de download de planilhas no site com alguma ferramenta (aba "Network" do browser, Postman, Mitmproxy, etc., eu prefiro o Mitmproxy)

6.1. O fluxo deverá se parecer com o seguinte:
Siga os três commits iniciais deste repositório e veja as alterações feitas em cada um
A partir do quarto commit, é necessário criar uma conta na AWS e criar um usuário IAM

8.1. Guarde as seguintes informações do usuário IAM criado: "user arn", "access key id" e "secret access key"

8.2. Nunca disponibilize estes dados publicamente!
Crie um bucket no S3
Adicione o arquivo .env na mesma pasta do arquivo settings.py com a ACCESS_KEY_ID e SECRET_ACCESS_KEY do usuário IAM
Siga os commits até o sétimo commit, vendo todas as alterações feitas de um commit para o outro, para entender a lógica.
No sétimo commit, já é possível fazer o upload de planilhas do tópico escolhido pro S3, executando python run.py

12.1. Para fazer o upload de todas as disponíveis, execute python run.py com a linha process.crawl(PlanilhasSpider, all=True) descomentada e a linha process.crawl(PlanilhasSpider) comentada

12.2. Para fazer o uploade apenas do dia atual, execute python run.py normalmente
No sétimo commit, também já é possível hospedar este código no Heroku.
Crie uma conta no Heroku
Associe o Heroku ao repositório (criando app)
Adicione as variáveis de ambiente ACCESS_KEY_ID e SECRET_ACCESS_KEY do usuário IAM da AWS no app Heroku
Adicione o addon "Heroku Scheduler" na aba "Resources" do app Heroku
Faça o Heroku Scheduler executar o comando python run.py diariamente no horário desejado
Após estes passos, seu sistema de extração automática de dados do Portal da Transparência está pronto
Para realizar as análises, faça download dos arquivos armazenados no S3 (usar o programa awscli é mais prático)
Dê unzip em todos os arquivos baixados
Faça suas análises
Para alguma referência de como usar os dados das planilhas, há um Jupyter Notebook na pasta "analise"

Qualquer dúvida, sugestão, reclamação, xingamento, etc., envie um email para gcc@cin.ufpe.br

Autores:

Giulio Carvalho Cavalcante
Iury Adones Xavier dos Santos

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
analise		analise
resources		resources
transparencia		transparencia
LICENSE		LICENSE
README.md		README.md
requirements.txt		requirements.txt
run.py		run.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Passo-a-passo

Qualquer dúvida, sugestão, reclamação, xingamento, etc., envie um email para gcc@cin.ufpe.br

About

Releases

Packages

Languages

License

ogecece/transparencia

Folders and files

Latest commit

History

Repository files navigation

Passo-a-passo

Qualquer dúvida, sugestão, reclamação, xingamento, etc., envie um email para gcc@cin.ufpe.br

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages