(English summary) Data sets and scripts for analyzing and visualizing page view statistics from Norwegian web site utdanning.no. Stats downloaded from utdanning.no's GA account. Current data set from 2013 to 2021. This repo is probably only interesting for people concerned with Norwegian education statistics.
Årlig besøksstatistikk fra utdanning.no. Sidevisningsstatistikk er lastet ned fra Google Analytics og bearbeidet. Datasett for antall sidevisninger pr nettside for hvert år fra 01.01.20XX til 09.03.20XX for hvert år. Dette utvalget er laget for å undersøke sammenheng mellom søketall i utdanning og søketall for informasjon på nett.
Datasettet har tall for 57 millioner sidevisninger siden 2013, 41 millioner unike sidevisninger og 14 millioner innganger. Dette er bare et utvalg av hvert års første 100 dager, som er valgt ut fordi det er forut for de årlige søknadsfristene ved høstopptak.
- Hva er trendene i besøkstallet? Hvilke utdanninger er brukerne mer/mindre interessert i, i følge besøkstallet? For yrker, utdanningskategorier og utdanningstilbud? Sikkert endel støy som følge av sidenes google-ranking.
- Hvordan lage visualiseringer som gjør det lett å vise utviklingen pǻ et yrke/utdanning slik at alle interesserte kunne kikket på tallene? Kunne dette vært vist ved å lage enkle visualiseringer i plot.ly eller Ggplot2?
- Er det korrelasjon mellom søkertall for en utdanning og besøkstall på utdanning.no for det samme? Interessant å se hvor det er størst korrelasjon eller misforhold. Undersøsker elever en utdanning, men blir skremt fra å søke den (pga. lønn/status/utdanningslengde etc)? For å finne ut dette må dataene kobles til søknadstallene fra Samordna opptak tilgjengelig fra DBHs datavarehus.
- Hvor er det størst avvik mellom det folk er interessert i å lese om, og antallet som faktisk har dette yrket/utdanningen? Dette er en måling av hvor kjent/polulært yrket er. Data kan finnes ved å koble antall personer med yrke fra Arbeidstakerregisteret (via Styrk-08) til besøksstatistikken.
I tillegg til felt for besøksstatisitikk for enkeltsider, er det rader med page_url
satt til ALLE20XX
, hvor årstall er summen av alle besøk dette året.
Feltnavn | Datatype | Forklaring |
---|---|---|
page_url |
varchar | Nettsidens url på utdanning.no. Denne kan ha endret seg ved opplegginger. Kjerneinnhold som yrkesbeskrivelser og utdanningsbeskrivelser har hatt rimelig stabilt på tvers av omlegginger. |
page_title |
varchar | Nettsidens tittel, dvs. det som står innenfor <title>-taggen. |
page_type |
varchar | Kategorisering av siden for personer som ikke er så kjent med strukturen på utdanning.no. Tagget ved hjelp av sql-skriptet ga_data_cleaning.sql |
year |
int | Årstall statistikken er fra. |
page_views |
int | Antall sidevisninger i løpet av året ( year ). |
page_views_pst |
float | Hvor stor andel av dette årets sidevisninger som besøket av denne nettsiden utgjorde |
unique_page_views |
int | Antall unike sidevisninger i løpet av året ( year ). Hvis bruker går tilbake til en side hun har vært på før, telles de bare én gang innen et visst tidsintervall. |
unique_page_views_pst |
float | Hvor stor andel av dette årets unike sidevisninger som besøket av denne nettsiden utgjorde |
entrances |
int | Antall ganger en bruker har landet på nettstedet gjennom denne nettsiden. |
entrances_pst |
float | Andel av alle innganger i løpet av året på nettstedet som har kommet gjennom denne nettsiden. |
bounce_rate_pst |
float | Fluktfrekvens, andel brukere som bare besøker denne ene siden, og ikke går videre på nettstedet |
exit_pst |
float | Andel som forlater nettstedet på denne siden. |
avg_time_on_page |
time | Gjennomsnittlig tid en bruker har brukt på denne siden. NB vanskelig å vite når et besøk er avsluttet. |
Foreløpig er dette datasettet er statisk (dvs. lasta ned en gang). Men det er mulig å skripte uthenting av et slikt datasett fra Google Analytics, hvis en har en OAuth-pålogging (i R med pakken googleAnalyticsR, andre språk har løsninger for det.)
Sidene i utdanning.no er tagget med utdanningskategorier (NUS) og yrkeskategorier (STYRK). Dette muliggjør sammenlignging av forholdstall mellom antall besøk på nett med