Skip to content

O infonet-scraping permite a extração de notícias do site Infonet e a análise de voz verbal dos títulos.

Notifications You must be signed in to change notification settings

tuliosg/infonet-scraping

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Extraindo e analisando notícias da Infonet

Com o objetivo de coletar dados de notícias publicadas na Infonet, um grande portal de notícias do estado de Sergipe, foi construído o Infonet Scraping.ipynb. O Jupyter Notebook que se encontra nesse repositório conta com técnicas de Web Scraping para a extração e armazenamento de dados das notícias, tais como título, texto e autoria.

Para além da extração dos dados, foi implementado um campo específico dentro do Notebook para a análise de voz verbal nas manchetes. Esse campo possibilita a inserção de qual tipo de voz verbal os verbos da manchete apresentam, ativa ou passiva.

Teste e validação

Visando o teste e validação da ferramenta, foram coletadas e analisadas 200 notícias, divididas em duas buscas no site da infonet. No campo de pesquisa do site, foram feitas as seguintes buscas:

  • "Homem é"
  • "Mulher é"

Com os links resultantes da pesquisa, foi realizado o scraping e armazenamento dos dados coletados. Após a extração, foram realizadas as análises das manchetes para identificação da voz verbal. Os resultados dos testes encontram-se nas pastas dados e análises.

About

O infonet-scraping permite a extração de notícias do site Infonet e a análise de voz verbal dos títulos.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published