Features | Landuages |
---|---|
sentence splitting and tokenization | RU and other |
normalization | RU, EN |
morphological | RU and other |
syntax features | RU and other |
stress | RU |
homograph ambiguity resolution | RU, EN |
phonemization | RU, EN and other |
SSML support | RU, EN |
Examples:
utterance_ru = """
Сфера услуг традиционно занимала незначительное место в российской экономике (включая советский период), однако с 1990-х годов началось её интенсивное развитие.
К 2015 г. доля сферы услуг в ВВП составила 59,7%, она обеспечивала занятость более половины (63%) трудоспособного населения
"""
tp = TextParser(lang="RU", device="cpu")
doc = tp.process(Doc(utterance))
print(doc.capitalize)
# Сфера услуг традиционно занимала незначительное место в российской экономике (включая советский период), однако с тысяча девятьсот девяностых годов началось её интенсивное развитие.
# К две тысячи пятнадцатому году доля сферы услуг в Вэвэпэ составила пятьдесят девять целых и семь десятых процента, она обеспечивала занятость более половины (шестьдесят три процента) трудоспособного населения.
print(doc.stress)
# сфе+ра услу+г традицио+нно занима+ла незначи+тельное ме+сто в росси+йской эконо+мике (включа+я сове+тский пери+од), одна+ко с ты+сяча девятьсо+т девяно+стых годо+в начало+сь её+ интенси+вное разви+тие.
# к две+ ты+сячи пятна+дцатому го+ду до+ля сфе+ры услу+г в вэвэпэ+ соста+вила пятьдеся+т де+вять це+лых и се+мь деся+тых проце+нта, она+ обеспе+чивала за+нятость бо+лее полови+ны (шезьдэся+т три+ проце+нта) трудоспосо+бнова населе+ния.
for sent in doc.sents:
print(f"'{sent.capitalize}'")
for tk in sent.tokens:
print(
f"\t'{tk.text}' -> "
f"{tk.text_orig}|{tk.stress}|{tk.pos}|{tk.rel}|"
f"{tk.is_capitalize}|{tk.is_punctuation}|{tk.is_abbreviation}|"
f"{tk.phonemes}"
)
# 'Сфера услуг традиционно занимала незначительное место в российской экономике (включая советский период), однако с тысяча девятьсот девяностых годов началось её интенсивное развитие.'
# 'сфера' -> Сфера|['сфе+ра']|NOUN|nsubj|True|False|False|('S', 'F0', 'E0', 'R', 'A')
# 'услуг' -> услуг|['услу+г']|NOUN|nmod|False|False|False|('U', 'S', 'L', 'U0', 'K')
# 'традиционно' -> традиционно|['традицио+нно']|ADV|advmod|False|False|False|('T', 'R', 'A', 'D0', 'I', 'TS', 'Y', 'O0', 'N', 'A')
# 'занимала' -> занимала|['занима+ла']|VERB|root|False|False|False|('Z', 'A', 'N0', 'I', 'M', 'A0', 'L', 'A')
# 'незначительное' -> незначительное|['незначи+тельное']|ADJ|amod|False|False|False|('N0', 'I', 'Z', 'N', 'A', 'TSH0', 'I0', 'T0', 'I', 'L0', 'N', 'A', 'J0', 'I')
# 'место' -> место|['ме+сто']|NOUN|obj|False|False|False|('M0', 'E0', 'S', 'T', 'A')
# 'в' -> в|['в']|ADP|case|False|False|False|('F',)
# 'российской' -> российской|['росси+йской']|ADJ|amod|False|False|False|('R', 'A', 'S0', 'I0', 'J0', 'S', 'K', 'A', 'J0')
# 'экономике' -> экономике|['эконо+мике']|NOUN|nmod|False|False|False|('Y', 'K', 'A', 'N', 'O0', 'M0', 'I', 'K0', 'I')
# '(' -> (|None|PUNCT|None|False|True|False|None
# 'включая' -> включая|['включа+я']|ADV|parataxis|False|False|False|('F', 'K', 'L0', 'U', 'TSH0', 'A0', 'J0', 'A')
# 'советский' -> советский|['сове+тский']|ADJ|amod|False|False|False|('S', 'A', 'V0', 'E0', 'TS', 'K0', 'I', 'J0')
# 'период' -> период|['пери+од']|NOUN|obj|False|False|False|('P0', 'I', 'R0', 'I0', 'A', 'T')
# ')' -> )|None|PUNCT|None|False|True|False|None
# ',' -> ,|None|PUNCT|None|False|True|False|None
# 'однако' -> однако|['одна+ко']|ADV|advmod|False|False|False|('A', 'D', 'N', 'A0', 'K', 'A')
# 'с' -> с|['с']|ADP|case|False|False|False|('S',)
# 'тысяча' -> |['ты+сяча']|ADJ|amod|False|False|False|('T', 'Y0', 'S0', 'I', 'TSH0', 'A')
# 'девятьсот' -> |['девятьсо+т']|ADJ|amod|False|False|False|('D0', 'I', 'V0', 'I', 'T0', 'S', 'O0', 'D')
# 'девяностых' -> |['девяно+стых']|ADJ|amod|False|False|False|('D0', 'I', 'V0', 'I', 'N', 'O0', 'S', 'T', 'Y', 'GH')
# 'годов' -> годов|['годо+в']|NOUN|obl|False|False|False|('G', 'A', 'D', 'O0', 'F')
# 'началось' -> началось|['начало+сь']|VERB|root|False|False|False|('N', 'A', 'TSH0', 'I', 'L', 'O0', 'S0')
# 'её' -> её|['её+']|PRON|det|False|False|False|('J0', 'I', 'J0', 'O0')
# 'интенсивное' -> интенсивное|['интенси+вное']|ADJ|amod|False|False|False|('I', 'N0', 'T0', 'I', 'N0', 'S0', 'I0', 'V', 'N', 'A', 'J0', 'I')
# 'развитие' -> развитие|['разви+тие']|NOUN|nsubj|False|False|False|('R', 'A', 'Z', 'V0', 'I0', 'T0', 'I', 'J0', 'I')
# '.' -> .|None|PUNCT|None|False|True|False|None