Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Extraction of Etymological Entries from MW #1

Open
gasyoun opened this issue Feb 20, 2017 · 0 comments
Open

Extraction of Etymological Entries from MW #1

gasyoun opened this issue Feb 20, 2017 · 0 comments

Comments

@gasyoun
Copy link
Owner

gasyoun commented Feb 20, 2017

Нужен скрипт, чтобы иметь возможность повторно извлекать этимологии из самого известного санскрито-английского словаря:

  1. Есть список из 32 аббревиатур и их расшифровки Alphabet tags vs Language tags sanskrit-lexicon/COLOGNE#68 (comment)
  2. Надо найти все перечисленные аббревиатуры в тексте и извлечь из http://www.sanskrit-lexicon.uni-koeln.de/scans/MWScan/2014/downloads/mwxml.zip XML файла все словарные статьи, которые содержат эти аббревиатуры
  3. Если ищем, например, все авестийские этимологии, тогда нужна Zd.. Все аббревиатуры внутри тэгов . Находим, например,
<H3><h><hc3>110</hc3><key1>mitradruh</key1><hc1>3</hc1><key2>mitra/--dru/h</key2></h><body> <lex>mfn.</lex> <p><ab>nom.</ab>~<s>mitra/-druh</s></p> <c>seeking_to_injure_a_friend_,_the_betrayer_of_a_<abE>fr</abE>friend_,_a_false_or_treacherous_<abE>fr</abE>friend</c> <ls>MaitrS.</ls> <ls>TBr.</ls> <ls>Mn._<etc1/>_</ls> <b><c><ab>cf.</ab>_<ab>Zd.</ab></c>~<etym>mithradruj</etym></b> </body><tail><MW>104222</MW> <pc>816,2</pc> <L>164188</L></tail></H3>

Берем слово из , в данном случае mitra/--dru/h и после ; извлекаем то, что приведено в тэгах , то есть mithradruj. Получаем:

Авестийский язык:
mitra/--dru/h; mithradruj
raTe-zWA/; rathaestA

Статьи может содержать и по несколько этимологий
<H2B><h><hc3>110</hc3><key1>hima</key1><hc1>2</hc1><key2>hima/</key2></h><body> <lex>mf<p><s>A</s></p>n.</lex> <c>cold_,_cool</c> <ls>Ja1takam.</ls> <b><c><ab>cf.</ab>_<ab>Zd.</ab></c>~<etym>zima</etym>~~;~~<c><ab>Gk.</ab></c> <p><gk>1</gk></p> <gk>2</gk>~~;~~<gk>3</gk>~~,~~<gk>4</gk>_;_<ab>Lat.</ab>~<etym>bi1mus</etym>~<c>for</c>~<etym>bihimus</etym>~;~<etym>hiems</etym>~<c>;_<ab>Slav.</ab></c>~<etym>zima</etym>~<c>Lit._żëmà_</c></b> </body><tail><MW>165045</MW> <mat/> <pc>1298,3</pc> <L>262971.1</L></tail></H2B>

Весь поезд <ab>Slav.</ab></c>~<etym>zima</etym> идет вместе.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant