GitHub - yradunchev/language: Frequency analysis of Bulgarian language

Честотен анализ на буквите в два литературни текста на български език

Източници:

Методика

Текстовете на двете литературни прозиведения са свалени от сайта Читанка в plain text формат.

Текстовете са обработени както следва:

Премахнати са всички пунктуационни знаци:
```
sed 's/[[:punct:]]//g'
```
Премахнати са всички цифри:
```
sed 's/[[:num:]]//g'
```
Премахнати са всички интервали:
```
sed 's/ //g'
```
Премахнати са всички табулации:
```
sed 's/\t//g'
```
Премахнати са всички нови редове CR+LF:
```
sed 's/^M//g'
```
Премахнати са всички нови редове:
```
sed 's/\n//g'
```
Главните букви в текстовете са превърнати в редови:
```
awk '{print tolower($0)}'
```

Забележка: Тъй като в текстовете вместо ѝ е използвана буквата й между стъпка 2 и стъпка 3 преброени всички срещания на й между два интрвала (grep -c " й "). Сумата е извадена от общия резултат на й и добавена в общия резултат на и в резултата от общото преброяване на буквите по-късно.

Общия брой на буквите в текста е изчислен така:

wc -c text_p

Броя на всяка буква в текстовете е преброен, след което е изчислен в процент от общия брой букви в съответния текст:

grep -o . text_p | sort | uniq -c | sort -k2 | awk '{c = ($1/1155525)*100; printf "%s %s %.2f\n",$1,$2,c }'

Нанесена е корекцията за ѝ и и (виж забележката по-горе).
С помощта на gnuplot са изчертани графики от резлутатите, използван е скрипта plot

Name		Name	Last commit message	Last commit date
Latest commit History 35 Commits
graphs		graphs
plots		plots
README.md		README.md
_config.yml		_config.yml
cipher.sed		cipher.sed
letters_e		letters_e
letters_p		letters_p
letters_r		letters_r
plain		plain
text_e		text_e
text_p		text_p
text_r		text_r

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Честотен анализ на буквите в два литературни текста на български език

Източници:

Методика

About

Languages

yradunchev/language

Folders and files

Latest commit

History

Repository files navigation

Честотен анализ на буквите в два литературни текста на български език

Източници:

Методика

About

Resources

Stars

Watchers

Forks

Languages