Svensk text är en samling med data för språkresurser på svenska speciellt anpassat för att snabbt kunna läsas in av vanliga programspråk.
Syftet är att samla svenska resurser som:
- är fria att använda
- finns i flera öppna standardiserade format som CSV och JSON
- har en enkel datastruktur
- kan enkelt maskinläsas
- består av små filer utan onödigt krimskrams
- kan läsas in i bibliotek för R, Python och C#
Kategori | Resurs | Antal | Beskrivning |
---|---|---|---|
Namn | Tilltalsnamn | 103584 | Tilltalsnamn på män och kvinnor i Sverige |
Namn | Förnamn | 163213 | Förnamn på män och kvinnor i Sverige |
Namn | Efternamn | 382492 | Efternamn i Sverige |
Nationaliteter | Nationaliteter | 197 | Nationaliteter med namn på invånarna i landet, både singular och plural |
Platser | Svenska orter | 2007 | Namn på svenska orter |
Platser | Sveriges län | 21 | Sveriges län |
Platser | Sveriges kommuner | 290 | Sveriges kommuner |
Platser | Länder och huvudstäder | 202 | Världens länder samt deras huvudstäder |
Platser | Landskoder | 245 | Landskoder (ISO 3166-1) |
Platser | Valutor | 245 | Länder och deras valutor och valutakoder (ISO 4217) |
Platser | Vägar | 278 | Svenska Europavägar, riksvägar och landsvägar |
Tider | Helgdagar | 23 | Svenska helgdagar |
Tider | Tidsperioder | 27 | Tidsenheter och tidsintervall |
Tider | Månader | 12 | Månader januari till december |
Tider | Veckodagar | 7 | Veckodagar måndag till söndag |
Ord | Lemma | 675137 | Grundformen av ord (t ex "springa" är grundform av "sprungit" och "sprang") |
Ord | Stoppord | 438 | Svenska stoppord |
Ord | Politiska stoppord | 285 | Svenska politiska stoppord |
Ord | Sentimentlexikon | 2067 | Positiva och negativa svenska ord |
Ord | Emotioner | 8519 | Känsloladdade ord och deras intensitet, uppdelade på 8 känslor |
Ord | Moral | 2104 | Moraliska ord enligt Moral Foundations Theory, uppdelade på 5 fundament |
Ord | Corona/smitta | 594 | Lexikon för ord relaterade till corona/smitta i nyhetsmedier |
Jobb | Yrken | 13833 | Svenska yrkesbeteckningar inklusive om det är en manlig eller kvinnlig beteckning |
Organisationer | Medier | 158 | Domäner till svenska massmedier och nyhetsmedier |
Organisationer | Myndigheter | 354 | Namn på svenska myndigheter |
Organisationer | EU-institutioner | 17 | Namn på EU:s institutioner och organ |
Wikipedia | Wikipedia-titlar | 6130751 | Alla titlar på svenska Wikipedia-sidor |
- svensktext för R
- svensktext för Python (läs mer)
- svensktext för C# (läs mer)
Läs mer om hur du kan bidra med CSV-filer med öppen data.
Gör helst en egen lokal kopia. Både datan och strukturen kan nämligen ändras varefter som den utökas.
Svensk text finns på Svensk nationell datatjänst och kan citeras på följande sätt:
APA6:
Dahlgren, P. M. (2018). Svensk text. Svensk nationell datatjänst. https://snd.gu.se/sv/catalogue/study/ext0278
BibTeX:
@misc{dahlgren_svensktext_2018,
title = {Svensk text},
url = {https://snd.gu.se/sv/catalogue/study/ext0278},
abstract = {Samling med språkresurser på svenska speciellt anpassat för att snabbt och enkelt kunna läsas in av programspråk som Python, R eller dylikt. Bland språkresurserna finns namn på kvinnor (förnamn), män (förnamn), städer, kommuner, län, huvudstäder, länder, nationaliteter, yrken, myndigheter, massmedier med mera. Syftet är att samla svenska resurser som är fria att använda, finns i flera öppna standardiserade format (exempelvis CSV och JSON), har en enkel datastruktur som enkelt kan maskinläsas, består av små filer utan onödigt krimskrams och har exempelkod (R och Python) för att snabbt kunna användas. Materialet utökas och uppdateras kontinuerligt under öppna licenser.},
language = {Svenska},
urldate = {2018-12-20},
publisher = {Svensk nationell datatjänst},
author = {Dahlgren, Peter M.},
month = dec,
year = {2018},
note = {https://github.com/peterdalle/svensktext}
}
- Rivera Ahlin, K. (2023). Fixation and Machine Learning: A new method for measuring fixation in internet users using machine learning and natural language processing. Uppsala: Institutionen för informationsteknologi, Uppsala universitet.
- Dahlgren, P. M. (2021). Svenskar eller utrikesfödda i medierna? – att identifiera födelseland från namn. I: L. Truedson & J. Lundqvist (Red.), Vitt eller brett? - vilka får ta plats i medier och på redaktioner? (s. 79–91). Stockholm: Institutet för mediestudier.
- Dahlgren, P. M. (2021). Medieinnehåll och mediekonsumtion under coronapandemin: Datoriserade metoder för insamling och analys av stora mängder text- och mediedata (arbetsrapport nr 88). Göteborg: Institutionen för journalistik, medier och kommunikation (JMG), Göteborgs universitet.
- Chen Trieu, K. & Nguyen, L. (2020). Classifying Short Clinical Notes: An Unsupervised Approach. Göteborg: Institutionen för data och informationsteknik, Chalmers tekniska högskola.
Säg gärna till så lägger jag till din publikation här (eller gör det själv genom en pull request).
- Språkbankens resurser på Göteborgs universitet
- Öppna data
- Statistiska centralbyrån
- Bebyggelseregistret – BeBR
- Lantmäteriet (öppna geodata)
- Öppna data från SKL
- Valmyndigheten
- Rikstermbanken
- PAP API Lite - öppet REST API med Sveriges postnummer och postorter
- Dataportal - sök och utforska öppna data i Sverige (från Myndigheten för digital förvaltning, DIGG)