Esse pacote foi produzido especialmente para o trabalho final do curso de Web Scraping. curso-r.
# install.packages("devtools")
devtools::install_github("katerine-dev/scraperTheoffice")
O objetivo do trabalho era scrapear alguma página que resultaria em uma base de dados. Foi escolhida a página do Wikipédia que contém a lista completa dos episódios de totas as temporadas da série The Office.
Para manter a consistência da atividade foi escolhido não utilizar a API documentada do Wikipédia.
- 1º Passo: Utilizando a ferramenta inspeccionar foi identificado que
os dados eram constituídos em formato de
/table
. - 2° Passo: Scrapear e parsear os dados.
- 3º Passo: Limpeza da base de dados.
- 4º Passo: Foi disponibilizada a base tidy no pacote.
scraperTheoffice::baseTheoffice |>
dplyr::glimpse()
#> Rows: 163
#> Columns: 9
#> $ temporada <chr> "1ª temporada", "1ª temporada", "1ª temporada", "1ª …
#> $ n_total <dbl> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 1…
#> $ n_episodio <dbl> 1, 2, 3, 4, 5, 6, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11,…
#> $ titulo <chr> "\"Pilot\"", "\"Diversity Day\"", "\"Health Care\"",…
#> $ dirigido_por <chr> "Ken Kwapis", "Ken Kwapis", "Ken Whittingham", "Brya…
#> $ escrito_por <chr> "Ricky Gervais, Stephen Merchant & Greg Daniels", "B…
#> $ audiencia <dbl> 11.2, 6.0, 5.8, 5.4, 5.0, 4.8, 9.0, NA, 8.3, 7.6, 8.…
#> $ codigo <chr> "100", "101", "105", "103", "104", "102", "203", "20…
#> $ exibicao_original <date> 2005-03-24, 2005-03-29, 2005-04-05, 2005-04-12, 200…
Em resultado do scraper obtive uma base com 163 linhas e 9 variaveis: (a
base foi devidamente documentada: R/utils-data
)
Coluna | Descrição |
---|---|
temporada |
Temporada do episódio correspondente. |
n_total |
Número do episódio correspondente ao total de todas as temporadas. |
n_episodio |
Número do episódio correspondente a temporada. |
titulo |
Nome do episódio. |
dirigido_por |
Diretor do episódio. |
escrito_por |
Escritor do roteiro do episódio. |
audiencia |
Número da audiência na data de exibicao original. |
codigo |
Código referente ao episódio. |
exibicao_original |
A data da exibicão original do episodio. |
Temporada | Título do episódio | Diretor | Audiência |
---|---|---|---|
1ª temporada | “Pilot” | Ken Kwapis | 11.20 |
3ª temporada | “Traveling Salesmen” | Greg Daniels | 10.10 |
3ª temporada | “Ben Franklin” | Randall Einhorn | 10.10 |
4ª temporada | “Chair Model” | Jeffrey Blitz | 9.81 |
2ª temporada | “Christmas Party” | Charles McDougall | 9.70 |
3ª temporada | “The Convict” | Jeffrey Blitz | 9.70 |
4ª temporada | “Fun Run” | Greg Daniels | 9.70 |
6ª temporada | “Niagara” | Paul Feig | 9.42 |
5ª temporada | “Employee Transfer” | David Rogers | 9.32 |
3ª temporada | “The Return” | Greg Daniels | 9.30 |
A série foi ao ar pela primeira vez a 16 anos, ultrapassando diversas séries de sucessos da época, mas apesar do enorme sucesso no seu tempo de permanência na TV a partir do ano de 2010 e após a saída do ator Steve Carrell (Michael Scott) a audiência foi diminuindo até o ultimo episodio exibido em 2013.
A série foi avaliada pelo IMDB por 8.9 e após anos continua presente entre os memes diários do cotidiano de um escritório.