Текстовете на двете литературни прозиведения са свалени от сайта Читанка в plain text формат.
Текстовете са обработени както следва:
- Премахнати са всички пунктуационни знаци:
sed 's/[[:punct:]]//g'
- Премахнати са всички цифри:
sed 's/[[:num:]]//g'
- Премахнати са всички интервали:
sed 's/ //g'
- Премахнати са всички табулации:
sed 's/\t//g'
- Премахнати са всички нови редове CR+LF:
sed 's/^M//g'
- Премахнати са всички нови редове:
sed 's/\n//g'
- Главните букви в текстовете са превърнати в редови:
awk '{print tolower($0)}'
Забележка: Тъй като в текстовете вместо ѝ е използвана буквата й между стъпка 2 и стъпка 3 преброени всички срещания на й между два интрвала (grep -c " й "). Сумата е извадена от общия резултат на й и добавена в общия резултат на и в резултата от общото преброяване на буквите по-късно.
Общия брой на буквите в текста е изчислен така:
wc -c text_pБроя на всяка буква в текстовете е преброен, след което е изчислен в процент от общия брой букви в съответния текст:
grep -o . text_p | sort | uniq -c | sort -k2 | awk '{c = ($1/1155525)*100; printf "%s %s %.2f\n",$1,$2,c }'Нанесена е корекцията за ѝ и и (виж забележката по-горе).
С помощта на gnuplot са изчертани графики от резлутатите, използван е скрипта plot