forked from UniversalDependencies/UD_Hebrew-IAHLTwiki
-
Notifications
You must be signed in to change notification settings - Fork 0
/
stats.xml
137 lines (137 loc) · 12.9 KB
/
stats.xml
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
<?xml version="1.0" encoding="UTF-8"?>
<treebank>
<!-- tokens means "surface tokens", e.g. Spanish "vámonos" counts as one token
words means "syntactic words", e.g. Spanish "vámonos" is split to two words, "vamos" and "nos"
fused is the number of tokens that are split to two or more syntactic words
The words and fused elements can be omitted if no token is split to smaller syntactic words. -->
<size>
<total><sentences>5039</sentences><tokens>103390</tokens><words>140950</words><fused>34686</fused></total>
<train><sentences>4298</sentences><tokens>88527</tokens><words>120824</words><fused>29801</fused></train>
<dev><sentences>348</sentences><tokens>6918</tokens><words>9395</words><fused>2281</fused></dev>
<test><sentences>393</sentences><tokens>7945</tokens><words>10731</words><fused>2604</fused></test>
</size>
<lemmas unique="9316" /><!-- ה, ב, ,, ., הוא, ו, ל, ", ש, של, מ, את, על, -, זה -->
<forms unique="14235" /><!-- ה, ב, ו, ,, ., ל, ", ש, של, מ, על, -, את, ), ( -->
<fusions unique="13067" /><!-- המשפט, בשנת, העליון, הראשון, בו, בישראל, בבית, הוועדה, הבנקים, הכנסת, באופן, המדינה, באותה, בשם, המנדט -->
<!-- Statistics of universal POS tags. The comments show the most frequent lemmas. -->
<tags unique="16">
<tag name="ADJ">8711</tag><!-- רב, נוסף, ראשון, עליון, יהודי, ישראלי, שונה, אחר, גדול, חדש -->
<tag name="ADP">23005</tag><!-- ב, ל, של, מ, את, על, כ, עם, בין, לאחר -->
<tag name="ADV">3529</tag><!-- לא, גם, כ, יותר, כן, רק, אף, ביותר, אז, עוד -->
<tag name="AUX">956</tag><!-- היה, אינו, יכל, עלול, צריך, עשוי, אמור, רשאי, מוכן, מסוגל -->
<tag name="CCONJ">4706</tag><!-- ו, או, אך, אולם, אלא, אבל, אף, אילו, וַ, למשל -->
<tag name="DET">14177</tag><!-- ה, כול, מספר, רוב, כמה, מרבית, עוד, כלל, מדי, שאר -->
<tag name="INTJ">4</tag><!-- שלום, נא -->
<tag name="NOUN">34625</tag><!-- שנה, בית, שיר, יד, משפט, אלבום, חוק, מדינה, ועדה, חלק -->
<tag name="NUM">3126</tag><!-- אחת, שתיים, שלוש, 2, 1, ארבע, מיליון, מאה, עשר, אלף -->
<tag name="PRON">5633</tag><!-- הוא, זה, אותו, כך, כן, עצמו, מה, מי, כולו, הללו -->
<tag name="PROPN">10448</tag><!-- ישראל, איינשטיין, כנסת, ארץ, ירושלים, גרמניה, יהודה, תל, בנק, שומרון -->
<tag name="PUNCT">16613</tag><!-- ,, ., ", -, ), (, :, –, ', ־ -->
<tag name="SCONJ">4317</tag><!-- ש, ה, כי, אשר, אם, כאשר, כדי, כש, כיוון, ככל -->
<tag name="SYM">146</tag><!-- %, –, -, /, =, +, :, °, &, ( -->
<tag name="VERB">10650</tag><!-- יש, כלל, ניתן, החל, היה, הגיע, כתב, יצא, קיבל, נמצא -->
<tag name="X">304</tag><!-- דו, מז'ור, מינור, סטטוס, קוו, GCS, the, ABA', ABABA', במול -->
</tags>
<!-- Statistics of features and values. The comments show the most frequent word forms. -->
<feats unique="50">
<feat name="Abbr" value="Yes" upos="ADJ,ADP,ADV,NOUN,PROPN">515</feat><!-- אונר"א, מק"ם, או"ם, דו"ח, בג"ץ, מעו"ף, ש"ח, צה"ל, ד"ר, נ"ט -->
<feat name="Aspect" value="Prog" upos="VERB">47</feat><!-- ניתן, פוגעת, גורם, גורמים, דורכת, הולכת, הסעירה, ידוע, כותבים, כרוכה -->
<feat name="Case" value="Acc" upos="ADP,PRON">794</feat><!-- את, אות, ו, אותה, ם, אותו, ה, ני, אֶת, אֹת -->
<feat name="Case" value="Gen" upos="ADP,PRON">4606</feat><!-- של, ו, ה, ם, הם, ן, הן, י, נו, ך -->
<feat name="Definite" value="Cons" upos="ADJ,DET,NOUN,NUM,PROPN">10858</feat><!-- בית, שנת, ידי, פי, שנות, כל, שני, ארץ, סוג, ועדת -->
<feat name="Definite" value="Def" upos="ADP,DET,PRON">18504</feat><!-- ה, ב, ו, ל, ם, אותה, הם, כ, ן, אותו -->
<feat name="Foreign" value="Yes" upos="X">118</feat><!-- the, District, Pottery, אלגרו, Allegro, Bank, Commissioner, Palestine, Penicillium, Studio -->
<feat name="Gender" value="Fem" upos="ADJ,AUX,DET,NOUN,NUM,PRON,PROPN,VERB">22243</feat><!-- ה, שנת, ידי, היא, זו, סוכרת, שנים, הייתה, הן, זאת -->
<feat name="Gender" value="Fem,Masc" upos="AUX,NOUN,NUM,PRON,VERB">171</feat><!-- אלו, היו, פני, אני, החלו, נערכו, עמדו, הגיעו, טענו, י -->
<feat name="Gender" value="Masc" upos="ADJ,AUX,DET,NOUN,NUM,PRON,PROPN,SYM,VERB">37525</feat><!-- ו, הם, ם, בית, הוא, זה, משפט, היה, חוק, אלבום -->
<feat name="HebBinyan" value="HIFIL" upos="VERB">1853</feat><!-- הלחין, החל, החלו, החלה, הוציא, הגיעו, הגיע, הקליט, הגיעה, הביא -->
<feat name="HebBinyan" value="HITPAEL" upos="VERB">717</feat><!-- השתתף, השתתפו, להשתמש, התנגדו, התברר, התקבלה, הצטרף, הצטרפו, התבטא, התפרסם -->
<feat name="HebBinyan" value="HUFAL" upos="VERB">600</feat><!-- הוקמה, הוקם, הוצגו, הושגו, הוחלט, הועברו, הוגשו, הועלה, הוקמו, מוטל -->
<feat name="HebBinyan" value="NIFAL" upos="VERB">1538</feat><!-- ניתן, נמצא, נקבע, נעשה, נערכה, נקרא, נערך, נראה, נחשב, נאמר -->
<feat name="HebBinyan" value="NITPAEL" upos="VERB">17</feat><!-- נתגלו, נתגלתה, נתקבלה, להתעניין, משתמע, נשתמר, נתברר, נתקבלו -->
<feat name="HebBinyan" value="PAAL" upos="AUX,VERB">3923</feat><!-- היה, היו, הייתה, כתב, יצא, זכה, להיות, כולל, כלל, שר -->
<feat name="HebBinyan" value="PIEL" upos="VERB">1642</feat><!-- ניצח, לקבל, מהווה, קיבל, פרסם, קיבלו, שימש, לבצע, תיאר, ביצעה -->
<feat name="HebBinyan" value="PUAL" upos="VERB">563</feat><!-- מדובר, מכונה, בוצעו, בוצע, כונה, מונתה, פורסם, מונה, מיועדת, בוצעה -->
<feat name="Mood" value="Imp" upos="VERB">34</feat><!-- סע, ראו, צא, הכניסי, עוף, קח, שמור, בואו, בואי, האר -->
<feat name="Number" value="Dual" upos="NOUN,NUM">27</feat><!-- שנתיים, יומיים, שעתיים, פעמיים, שני, שניים, דלתיים, חודשיים, טעמי, שבועיים -->
<feat name="Number" value="Plur" upos="ADJ,AUX,DET,NOUN,NUM,PRON,PROPN,SYM,VERB">15966</feat><!-- הם, ם, ידי, היו, שנים, שירים, הן, ילדים, רבים, בנקים -->
<feat name="Number" value="Plur,Sing" upos="NOUN,SYM">9</feat><!-- % -->
<feat name="Number" value="Sing" upos="ADJ,AUX,DET,NOUN,NUM,PRON,PROPN,SYM,VERB">43601</feat><!-- ו, ה, הוא, בית, שנת, זה, משפט, היה, היא, זו -->
<feat name="NumType" value="Card" upos="NUM">756</feat><!-- שני, אחד, שתי, אחת, שלושה, שלוש, מיליון, ארבע, ארבעה, חמישה -->
<feat name="NumType" value="Ord" upos="ADJ">381</feat><!-- ראשון, ראשונה, שני, שנייה, חמישית, 20, שלישי, 19, רביעי, ראשונות -->
<feat name="Person" value="1" upos="AUX,PRON,VERB">221</feat><!-- י, נו, אני, טענו, הייתי, אנחנו, ני, אוהב, מרגיש, נתנו -->
<feat name="Person" value="2" upos="AUX,PRON,VERB">115</feat><!-- ך, אתה, סע, ראו, את, נחתם, באת, צא, בוכה, הכניסי -->
<feat name="Person" value="3" upos="AUX,PRON,VERB">14527</feat><!-- ו, ה, הם, ם, הוא, זה, היה, היא, זו, היו -->
<feat name="Polarity" value="Neg" upos="ADV,AUX,VERB">405</feat><!-- לא, אינו, אינה, אינם, אין, אינן, אי, בלתי, איננו, איננה -->
<feat name="Polarity" value="Pos" upos="AUX,PRON,VERB">873</feat><!-- היה, היו, הוא, היא, הייתה, יש, להיות, הם, ישנם, תהיה -->
<feat name="Poss" value="Yes" upos="PRON">2131</feat><!-- ו, ה, ם, הם, ן, הן, י, נו, ך, הּ -->
<feat name="Prefix" value="Yes" upos="ADV,NUM">125</feat><!-- אי, בלתי, בטא, גראם, פוסט, תת, דו, בינ, דה, קדם -->
<feat name="PronType" value="Art" upos="ADP,DET">16193</feat><!-- ה, ב, ל, כ, אל, אות, הַ, ְהַ, א, הָ -->
<feat name="PronType" value="Dem" upos="PRON">982</feat><!-- זה, זו, זאת, אלו, אלה, כן, כך, הללו, זהו, זוהי -->
<feat name="PronType" value="Emp" upos="PRON">50</feat><!-- עצמו, עצמה, עצמם, כולה, עצמך, עצמן, עצמי -->
<feat name="PronType" value="Ind" upos="PRON">18</feat><!-- כלשהו, כלשהי, כלשהם, כלשהן, מישהו, משהו, כמה, מה -->
<feat name="PronType" value="Int" upos="ADV,PRON">27</feat><!-- מה, מי, כיצד, כמה, אילו, האם, למה, מדוע, מהו, מהם -->
<feat name="PronType" value="Prs" upos="PRON">4385</feat><!-- ו, ה, הם, ם, הוא, היא, הן, אותה, ן, י -->
<feat name="Reflex" value="Yes" upos="PRON">71</feat><!-- עצמו, עצמה, עצמם, עצמך, עצמן, אותה, עצמי, עצמנו -->
<feat name="Tense" value="Fut" upos="AUX,VERB">410</feat><!-- יהיה, תהיה, יהיו, תוכל, תשלם, יאפשר, ייתכן, יקבלו, ישלמו, תוביל -->
<feat name="Tense" value="Past" upos="AUX,VERB">6333</feat><!-- היה, היו, הייתה, כתב, הלחין, יצא, זכה, החל, החלו, כלל -->
<feat name="Tense" value="Pres" upos="AUX,VERB">2618</feat><!-- ניתן, כולל, מדובר, מהווה, מכונה, נמצא, נראה, עולה, גורם, נמצאים -->
<feat name="Typo" value="Yes" upos="ADJ,ADP,ADV,AUX,CCONJ,DET,NOUN,NUM,PRON,PROPN,PUNCT,VERB,X">113</feat><!-- איפשר, הייתה, היה, הם, זה, לדה, מינהלית, מסים, מעין, נייטרון -->
<feat name="VerbForm" value="Inf" upos="AUX,VERB">1559</feat><!-- להיות, לקבל, לגרום, למנוע, לבצע, ליצור, להופיע, לתת, למצוא, לאפשר -->
<feat name="VerbForm" value="Part" upos="AUX,VERB">2730</feat><!-- ניתן, כולל, מדובר, מהווה, מכונה, יכול, נמצא, נראה, אינה, עולה -->
<feat name="VerbType" value="Cop" upos="AUX">266</feat><!-- היה, הייתה, היו, תהיה, יהיה, להיות, יהיו, אינה, אינו, הייתי -->
<feat name="VerbType" value="Mod" upos="AUX,VERB">139</feat><!-- ניתן, יכולים, אפשר, יכול, יכולה, יש, צריך, תוכל, עלול, עלולים -->
<feat name="Voice" value="Act" upos="VERB">6858</feat><!-- כתב, הלחין, יצא, זכה, החל, כולל, החלו, כלל, החלה, הוציא -->
<feat name="Voice" value="Mid" upos="VERB">1387</feat><!-- נמצא, נקרא, נראה, נערכה, נעשה, נחשב, נכללו, נמצאים, נוצר, להימנע -->
<feat name="Voice" value="Pass" upos="VERB">1888</feat><!-- ניתן, מדובר, הוקמה, מכונה, נקבע, נעשה, הוקם, בוצעו, בוצע, נערך -->
</feats>
<!-- Statistics of universal dependency relations. -->
<deps unique="46">
<dep name="acl">351</dep>
<dep name="acl:relcl">3064</dep>
<dep name="advcl">673</dep>
<dep name="advmod">3133</dep>
<dep name="amod">7444</dep>
<dep name="appos">1703</dep>
<dep name="aux">411</dep>
<dep name="case">22525</dep>
<dep name="cc">4650</dep>
<dep name="ccomp">372</dep>
<dep name="compound">10379</dep>
<dep name="compound:affix">211</dep>
<dep name="conj">5750</dep>
<dep name="cop">871</dep>
<dep name="csubj">200</dep>
<dep name="csubj:outer">2</dep>
<dep name="csubj:pass">82</dep>
<dep name="dep">245</dep>
<dep name="det">14819</dep>
<dep name="discourse">5</dep>
<dep name="dislocated">24</dep>
<dep name="expl">1</dep>
<dep name="fixed">1630</dep>
<dep name="flat">1870</dep>
<dep name="goeswith">1</dep>
<dep name="list">15</dep>
<dep name="mark">4190</dep>
<dep name="nmod">6176</dep>
<dep name="nmod:npmod">43</dep>
<dep name="nmod:poss">4459</dep>
<dep name="nmod:tmod">356</dep>
<dep name="nsubj">5885</dep>
<dep name="nsubj:outer">92</dep>
<dep name="nsubj:pass">860</dep>
<dep name="nummod">1149</dep>
<dep name="obj">3037</dep>
<dep name="obl">10900</dep>
<dep name="obl:npmod">14</dep>
<dep name="obl:tmod">123</dep>
<dep name="orphan">106</dep>
<dep name="parataxis">664</dep>
<dep name="punct">16613</dep>
<dep name="reparandum">21</dep>
<dep name="root">5039</dep>
<dep name="vocative">1</dep>
<dep name="xcomp">791</dep>
</deps>
</treebank>