Skip to content

Commit

Permalink
Merge pull request #19 from Informasjonsforvaltning/develop
Browse files Browse the repository at this point in the history
develop -> v1
  • Loading branch information
jimjyang authored Dec 4, 2024
2 parents aa87614 + a7c1645 commit 9d3f5bd
Show file tree
Hide file tree
Showing 6 changed files with 54 additions and 53 deletions.
38 changes: 19 additions & 19 deletions docs/dimensjoner.adoc
Original file line number Diff line number Diff line change
@@ -1,6 +1,6 @@
=== Kvalitetsdimensjonen «fullstendighet»[[fullstendighet]]

Kvalitetsdimensjonen https://data.norge.no/vocabulary/quality-dimension#completeness[fullstendighet] handler både om mangel på elementer i datasettet (kvalitetsdeldimensjon https://data.norge.no/vocabulary/quality-dimension#under-coverage[underdekning]) og overflødige elementer i datasettet (kvalitetsdeldimensjon https://data.norge.no/vocabulary/quality-dimension#over-coverage[overdekning]). Disse har kvalitetsmål på både enhets- og egenskapsnivå. Videre kan fullstendighet måles ut fra tre ulike verdityper, boolsk (ja/nei) på enhetsnivå, antall og andel på både enhets- og egenskapsnivå. Fritekst-feltet kan brukes til å opplyse om hvilken gitt egenskap som det mangler verdier for (for eksempel «bruksareal»).
Kvalitetsdimensjonen https://data.norge.no/vocabulary/quality-dimension#completeness[fullstendighet ⧉, window="_blank", role="ext-link"] handler både om mangel på elementer i datasettet (kvalitetsdeldimensjon https://data.norge.no/vocabulary/quality-dimension#under-coverage[underdekning ⧉, window="_blank", role="ext-link"]) og overflødige elementer i datasettet (kvalitetsdeldimensjon https://data.norge.no/vocabulary/quality-dimension#over-coverage[overdekning ⧉, window="_blank", role="ext-link"]). Disse har kvalitetsmål på både enhets- og egenskapsnivå. Videre kan fullstendighet måles ut fra tre ulike verdityper, boolsk (ja/nei) på enhetsnivå, antall og andel på både enhets- og egenskapsnivå. Fritekst-feltet kan brukes til å opplyse om hvilken gitt egenskap som det mangler verdier for (for eksempel «bruksareal»).
[cols=100%]
|===
Expand All @@ -10,32 +10,32 @@ Eksemplet uttrykt i RDF Turtle i henhold til DQV-AP-NO blir (eksemplet er ikke k
-----
:dsBuildings a dcat:Dataset ; # et datasett
dqv:hasQualityMeasurement # har måleresultat
dqv:hasQualityMeasurement # har kvalitetsmåling
:qmMissingObjects , # manglende enheter
:qmNumberMissingObjects , # antall manglende enheter
:qmRateMissingObjects . # andel manglende enheter
:qmMissingObjects a dqv:QualityMeasurement ; # et måleresultat
:qmMissingObjects a dqv:QualityMeasurement ; # en kvalitetsmåling
dqv:isMeasurementOf <https://data.norge.no/vocabulary/quality-metric#qm-completeness-1001> ; # manglende enheter
dqv:value "true"^^xsd:boolean ;
rdfs:comment "Ja, noen bygninger mangler i datasettet."@nb ,
"Yes, some buildings are missing in the dataset."@en .
:qmNumberMissingObjects a dqv:QualityMeasurement ; # et måleresultat
:qmNumberMissingObjects a dqv:QualityMeasurement ; # en kvalitetsmåling
dqv:isMeasurementOf <https://data.norge.no/vocabulary/quality-metric#qm-completeness-1002> ; # antall manglende enheter
dqv:value "2"^^xsd:nonNegativeInteger ;
rdfs:comment "To bygninger mangler i datasettet."@nb ,
"Two buildings are missing in the dataset."@en .
:qmRateMissingObjects a dqv:QualityMeasurement ; # et måleresultat
:qmRateMissingObjects a dqv:QualityMeasurement ; # en kvalitetsmåling
dqv:isMeasurementOf <https://data.norge.no/vocabulary/quality-metric#qm-completeness-1003> ; # andel manglende enheter
dqv:value "0.02"^^xsd:double ;
rdfs:comment "0,02% av bygninger mangler i datasettet."@nb ,
"0.02% of buildings are missing in the dataset."@en .
-----
|===
Fullstendighet handler også om https://data.norge.no/vocabulary/quality-dimension#imputation[imputering]. Imputering er å fylle inn verdi for en gitt egenskap der verdien mangler eller er ubrukbar. Dette gjøres for å håndtere manglende verdier for egenskaper (tomme celler) i et datasett der disse manglende verdiene skaper problemer for, blant annet, analysen av dataene. Imputerte verdier som kvalitetsmål gir datatilbyderen mulighet til å informere brukerne av datasettet at det er egenskaper i datasettet som ikke er hentet fra virkeligheten.
Fullstendighet handler også om https://data.norge.no/vocabulary/quality-dimension#imputation[imputering &#x29C9;, window="_blank", role="ext-link"]. Imputering er å fylle inn verdi for en gitt egenskap der verdien mangler eller er ubrukbar. Dette gjøres for å håndtere manglende verdier for egenskaper (tomme celler) i et datasett der disse manglende verdiene skaper problemer for, blant annet, analysen av dataene. Imputerte verdier som kvalitetsmål gir datatilbyderen mulighet til å informere brukerne av datasettet at det er egenskaper i datasettet som ikke er hentet fra virkeligheten.
[cols=100%]
|===
Expand All @@ -45,10 +45,10 @@ Eksemplet uttrykt i RDF Turtle i henhold til DQV-AP-NO blir (eksemplet er ikke k
-----
:dsBuildings a dcat:Dataset ; # et datasett
dqv:hasQualityMeasurement # har måleresultat
dqv:hasQualityMeasurement # har kvalitetsmåling
:qmNumberImputedValues . # antall impurterte verdier
:qmNumberImputedValues a dqv:QualityMeasurement ; # et måleresultat
:qmNumberImputedValues a dqv:QualityMeasurement ; # en kvalitetsmåling
dqv:isMeasurementOf <https://data.norge.no/vocabulary/quality-metric#qm-completeness-3001> ; # andel enheter med imputert verdi for en gitt egenskap
dqv:value "4"^^xsd:nonNegativeInteger ;
rdfs:comment "Fire bygninger har fått imputert verdi for egenskapen 'byggeår'."@nb ,
Expand All @@ -58,7 +58,7 @@ Eksemplet uttrykt i RDF Turtle i henhold til DQV-AP-NO blir (eksemplet er ikke k
=== Kvalitetsdimensjonen «aktualitet»
Det er predefinert ett kvalitetsmål i kvalitetsdimensjonen https://data.norge.no/vocabulary/quality-dimension#currentness[aktualitet] – https://data.norge.no/vocabulary/quality-metric#qm-currentness-1001[samlet tidsdifferanse].
Det er predefinert ett kvalitetsmål i kvalitetsdimensjonen https://data.norge.no/vocabulary/quality-dimension#currentness[aktualitet &#x29C9;, window="_blank", role="ext-link"] – https://data.norge.no/vocabulary/quality-metric#qm-currentness-1001[samlet tidsdifferanse &#x29C9;, window="_blank", role="ext-link"].
[cols=100%]
|===
Expand All @@ -68,10 +68,10 @@ Eksemplet uttrykt i RDF Turtle i henhold til DQV-AP-NO blir (eksemplet er ikke k
-----
:dsBuildings a dcat:Dataset ; # et datasett
dqv:hasQualityMeasurement # har måleresultat
dqv:hasQualityMeasurement # har kvalitetsmåling
:qmOverallDelay . # samle tidsdifferanse
:qmOverallDelay a dqv:QualityMeasurement ; # et måleresultat
:qmOverallDelay a dqv:QualityMeasurement ; # en kvalitetsmåling
dqv:isMeasurementOf <https://data.norge.no/vocabulary/quality-metric#qm-currentness-1001> ; # samlet tidsdifferanse
dqv:value "P30D"^^xsd:duration ;
rdfs:comment "Det tar i gjennomsnitt 24 dager fra en bygning står ferdig eller er revet til den er innlemmet i eller tatt ut fra datasettet. Medregnet intern saksbehandlingstid blir den samlede tidsdifferansen 30 dager."@nb ,
Expand All @@ -82,11 +82,11 @@ Eksemplet uttrykt i RDF Turtle i henhold til DQV-AP-NO blir (eksemplet er ikke k
=== Kvalitetsdimensjonen «konsistens»
Kvalitetsdimensjonen https://data.norge.no/vocabulary/quality-dimension#consistency[konsistens] gjelder konsistens innad i ett og samme datasett, og ikke konsistens mellom datasett. Om datasettet er i samsvar med gitte standarder og krav er ikke definert på nytt som et eget kvalitetsmål ettersom dette er dekket av DCAT-AP-NO https://data.norge.no/specification/dcat-ap-no/#datasett-i-samsvar-med[(Datasett: i samsvar med)]. Et eksempel på slik innbyrdes inkonsistens er når bruksareal er større enn bruttoareal for en bygning.
Kvalitetsdimensjonen https://data.norge.no/vocabulary/quality-dimension#consistency[konsistens &#x29C9;, window="_blank", role="ext-link"] gjelder konsistens innad i ett og samme datasett, og ikke konsistens mellom datasett. Om datasettet er i samsvar med gitte standarder og krav er ikke definert på nytt som et eget kvalitetsmål ettersom dette er dekket av DCAT-AP-NO https://data.norge.no/specification/dcat-ap-no/#datasett-i-samsvar-med[(Datasett: i samsvar med) &#x29C9;, window="_blank", role="ext-link"]. Et eksempel på slik innbyrdes inkonsistens er når bruksareal er større enn bruttoareal for en bygning.
Kvalitetsdimensjonen konsistens kan i mange tilfeller lett forveksles med kvalitetsdimensjonen nøyaktighet. Det som bl.a. skiller nøyaktighet og konsistens er at når det gjelder konsistens _vet man ut fra vurdering av flere egenskaper at det er feil, men ikke hvilken eller hvilke egenskaper som er feil_ i datasettet. I eksemplet over er det ikke mulig å avgjøre om det er bruksareal eller bruttoareal (eller begge) som er feil. Når det gjelder nøyaktighet, _vet man hvilken egenskap som er feil_ (for eksempel feil identifikator).

Det første kvalitetsmålet i konsistens (https://data.norge.no/vocabulary/quality-metric#qm-consistency-1001[andel enheter med inkonsistente egenskaper]) måles på enhetsnivå. Her måles andel enheter som har en form for inkonsistens knyttet til seg. Det andre kvalitetsmålet (https://data.norge.no/vocabulary/quality-metric#qm-consistency-1002[andel enheter med inkonsistens mellom gitte egenskaper]) går mer i dybden og brukes der man har innsikt i hva inkonsistensen gjelder på egenskapsnivå. Kvalitetsmålene oppgis i prosentandel; fritekstfeltet kan brukes til å forklare for hvilke egenskaper inkonsistensen gjelder.
Det første kvalitetsmålet i konsistens (https://data.norge.no/vocabulary/quality-metric#qm-consistency-1001[andel enheter med inkonsistente egenskaper &#x29C9;, window="_blank", role="ext-link"]) måles på enhetsnivå. Her måles andel enheter som har en form for inkonsistens knyttet til seg. Det andre kvalitetsmålet (https://data.norge.no/vocabulary/quality-metric#qm-consistency-1002[andel enheter med inkonsistens mellom gitte egenskaper &#x29C9;, window="_blank", role="ext-link"]) går mer i dybden og brukes der man har innsikt i hva inkonsistensen gjelder på egenskapsnivå. Kvalitetsmålene oppgis i prosentandel; fritekstfeltet kan brukes til å forklare for hvilke egenskaper inkonsistensen gjelder.
[cols=100%]
|===
Expand All @@ -96,10 +96,10 @@ Eksemplet uttrykt i RDF Turtle i henhold til DQV-AP-NO blir (eksemplet er ikke k
-----
:dsBuildings a dcat:Dataset ; # et datasett
dqv:hasQualityMeasurement # har måleresultat
dqv:hasQualityMeasurement # har kvalitetsmåling
:qmRateInconsistencyGivenProperties . # andel enheter med inkonsistens mellom gitte egenskaper
:qmRateInconsistencyGivenProperties a dqv:QualityMeasurement ; # et måleresultat
:qmRateInconsistencyGivenProperties a dqv:QualityMeasurement ; # en kvalitetsmåling
dqv:isMeasurementOf <https://data.norge.no/vocabulary/quality-metric#qm-consistency-1002> ; # andel enheter med inkonsistens mellom gitte egenskaper
dqv:value "0.03"^^xsd:double ;
rdfs:comment "0,03% av bygningene i datasettet står oppført med 'bruksareal' som er høyere enn 'bruttoareal'."@nb ,
Expand All @@ -109,9 +109,9 @@ Eksemplet uttrykt i RDF Turtle i henhold til DQV-AP-NO blir (eksemplet er ikke k
=== Kvalitetsdimensjonen «nøyaktighet»
I kvalitetsdimensjonen https://data.norge.no/vocabulary/quality-dimension#accuracy[nøyaktighet] måles i hvilken grad dataene korrekt representerer virkeligheten.
I kvalitetsdimensjonen https://data.norge.no/vocabulary/quality-dimension#accuracy[nøyaktighet &#x29C9;, window="_blank", role="ext-link"] måles i hvilken grad dataene korrekt representerer virkeligheten.
Nøyaktighet av en dataverdi er ofte avhengig av type data, og kvalitetsmål for nøyaktighet blir fort svært fag- og sektorspesifikke. De mest generelle nøyaktighetsmålene er derfor plukket ut i denne sammenheng: https://data.norge.no/vocabulary/quality-dimension#identifier-correctness[identifikatorriktighet] som går på identifikasjonsnøkler, og https://data.norge.no/vocabulary/quality-dimension#classification-correctness[klassifikasjonsriktighet] som går på bruk av klassifikasjoner og kodeverk.
Nøyaktighet av en dataverdi er ofte avhengig av type data, og kvalitetsmål for nøyaktighet blir fort svært fag- og sektorspesifikke. De mest generelle nøyaktighetsmålene er derfor plukket ut i denne sammenheng: https://data.norge.no/vocabulary/quality-dimension#identifier-correctness[identifikatorriktighet &#x29C9;, window="_blank", role="ext-link"] som går på identifikasjonsnøkler, og https://data.norge.no/vocabulary/quality-dimension#classification-correctness[klassifikasjonsriktighet &#x29C9;, window="_blank", role="ext-link"] som går på bruk av klassifikasjoner og kodeverk.
[cols=100%]
|===
Expand All @@ -121,10 +121,10 @@ Eksemplet uttrykt i RDF Turtle i henhold til DQV-AP-NO blir (eksemplet er ikke k
-----
:dsBuildings a dcat:Dataset ; # et datasett
dqv:hasQualityMeasurement # har måleresultat
dqv:hasQualityMeasurement # har kvalitetsmåling
:qmRateIncorrectIdentifier . # andel enheter med identifikatorfeil
:qmRateIncorrectIdentifier a dqv:QualityMeasurement ; # et måleresultat
:qmRateIncorrectIdentifier a dqv:QualityMeasurement ; # en kvalitetsmåling
dqv:isMeasurementOf <https://data.norge.no/vocabulary/quality-metric#qm-accuracy-1002> ; # andel enheter med inkonsistens mellom gitte egenskaper
dqv:value "0.01"^^xsd:double ;
rdfs:comment "0,01% av bygningene i datasettet har fått feil identifikator."@nb ,
Expand Down
6 changes: 3 additions & 3 deletions docs/hensyn.adoc
Original file line number Diff line number Diff line change
Expand Up @@ -8,7 +8,7 @@ Der det er relevant, finnes det predefinere kvalitetsmål for både enhet- og eg


.Eksempeldatasett: Bygninger
image::images/eksempeldatasett.png[]
image::images/eksempeldatasett.png[alt="Tabell med et illustrativt datasett, som inneholder fire rader og seks kolonner."]

=== Predefinerte kvalitetsmål bruker negativt ladede ord

Expand All @@ -17,9 +17,9 @@ I predefineringen av kvalitetsmål er det valgt å bruke såkalte negativt laded
Et eksempel er kvalitetsmålet «andel manglende enheter» som handler om mangel. Det vil være for eksempel 2 % _mangel_ (negativt ladet) istedenfor 98 % _fullstendig_ (positivt ladet) som oppgis. Det er viktig å være klar over dette, både ved angivelse av verdier til kvalitetsmål og ved visning av verdiene i et sluttbrukergrensesnitt. I et konkret sluttbrukergrensesnitt kan man godt presentere det positivt (f.eks. regne om «2 % mangel» til «98 % fullstendig» og presentere resultatet positivt).

=== Fritekst kan brukes som supplerende forklaring
https://data.norge.no/specification/dqv-ap-no[DQV-AP-NO (Norsk applikasjonsprofil av DQV)] tillater bruk av fritekst-kommentarer som supplerende forklaringer til et kvantifiserbart kvalitetsmåleresultat. For eksempel, til vårt eksempeldatasett «Bygninger», hvis resultatet på kvalitetsmålet «andel enheter med manglende verdi for en gitt egenskap» er «2 %», kan man i fritekst-kommentaren spesifisere hvilken egenskap mangelen gjelder, for eksempel: «Dette gjelder egenskap ‘byggeår’».
https://data.norge.no/specification/dqv-ap-no[DQV-AP-NO (Norsk applikasjonsprofil av DQV) &#x29C9;, window="_blank", role="ext-link"] tillater bruk av fritekst-kommentarer som supplerende forklaringer til en kvantifiserbar kvalitetsmåling. For eksempel, til vårt eksempeldatasett «Bygninger», hvis resultatet på kvalitetsmålet «andel enheter med manglende verdi for en gitt egenskap» er «2 %», kan man i fritekst-kommentaren spesifisere hvilken egenskap mangelen gjelder, for eksempel: «Dette gjelder egenskap ‘byggeår’».

For de aller fleste brukstilfeller antok arbeidsgruppen som utarbeidet disse definisjonene, at det burde holde med supplerende fritekst-kommentarer. For avanserte kvalitetsbeskrivelser, for eksempel der det er behov for å avgi resultater for hver enkelt egenskap, er det i henhold til DQV mulig å oppgi slike resultater som egne datasett (https://www.w3.org/TR/vocab-dqv/#dqv:QualityMeasurementDataset[dqv:QualityMeasurementDataset]). For eksempel en «tabell» som sier «2 % mangel» for egenskap «byggeår», «3 % mangel» for egenskap «bruksareal» og «0 % mangel» for alle de andre egenskapene:
For de aller fleste brukstilfeller antok arbeidsgruppen som utarbeidet disse definisjonene, at det burde holde med supplerende fritekst-kommentarer. For avanserte kvalitetsbeskrivelser, for eksempel der det er behov for å avgi resultater for hver enkelt egenskap, er det i henhold til DQV mulig å oppgi slike resultater som egne datasett (https://www.w3.org/TR/vocab-dqv/#dqv:QualityMeasurementDataset[dqv:QualityMeasurementDataset &#x29C9;, window="_blank", role="ext-link"]). For eksempel en «tabell» som sier «2 % mangel» for egenskap «byggeår», «3 % mangel» for egenskap «bruksareal» og «0 % mangel» for alle de andre egenskapene:


[cols="50%,10%,10%,10%,10%,10%", stripes=odd]
Expand Down
Loading

0 comments on commit 9d3f5bd

Please sign in to comment.