Extraindo e analisando notícias da Infonet

Com o objetivo de coletar dados de notícias publicadas na Infonet, um grande portal de notícias do estado de Sergipe, foi construído o Infonet Scraping.ipynb. O Jupyter Notebook que se encontra nesse repositório conta com técnicas de Web Scraping para a extração e armazenamento de dados das notícias, tais como título, texto e autoria.

Para além da extração dos dados, foi implementado um campo específico dentro do Notebook para a análise de voz verbal nas manchetes. Esse campo possibilita a inserção de qual tipo de voz verbal os verbos da manchete apresentam, ativa ou passiva.

Teste e validação

Visando o teste e validação da ferramenta, foram coletadas e analisadas 200 notícias, divididas em duas buscas no site da infonet. No campo de pesquisa do site, foram feitas as seguintes buscas:

"Homem é"
"Mulher é"

Com os links resultantes da pesquisa, foi realizado o scraping e armazenamento dos dados coletados. Após a extração, foram realizadas as análises das manchetes para identificação da voz verbal. Os resultados dos testes encontram-se nas pastas dados e análises.

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
análises		análises
dados		dados
.gitattributes		.gitattributes
Infonet Scraping.ipynb		Infonet Scraping.ipynb
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Extraindo e analisando notícias da Infonet

Teste e validação

About

Releases

Packages

Languages

tuliosg/infonet-scraping

Folders and files

Latest commit

History

Repository files navigation

Extraindo e analisando notícias da Infonet

Teste e validação

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages