diff --git a/pedurma/reconstruction.py b/pedurma/reconstruction.py index 2f242a9..2bc5e63 100644 --- a/pedurma/reconstruction.py +++ b/pedurma/reconstruction.py @@ -1069,6 +1069,7 @@ def get_normalized_note(note_text, right_context): def get_normalized_notes_text(collated_text): normalized_collated_text = "" + collated_text = re.sub(r"(\([༡-༩]\) <[^>]+?>)།", r"།\g<1>", collated_text) chunks = split_text(collated_text) left_context = chunks[0] for chunk_walker, chunk in enumerate(chunks): diff --git a/tests/preview/data/D1119_preview.txt b/tests/preview/data/D1119_preview.txt index 23218cb..46c4ee2 100644 --- a/tests/preview/data/D1119_preview.txt +++ b/tests/preview/data/D1119_preview.txt @@ -9,7 +9,7 @@ ཆོས་ཉིད་སངས་རྒྱས་རྣམས་ཀྱིས་རྟོགས། །ཁྱོད་ཀྱིས་ཅུང་ཞིག་མ་བསྐྱེད་ཅིང་། ། ཆོས་རྣམས་བཀག་པའང་མ་ལགས་ལ། །མཉམ་པ་ཉིད་ཀྱི་ལྟ་བ་ཡིས། །བླ་ན་ མེད་པའི་གོ་འཕང་བརྙེས། །འཁོར་བ་སྤངས་པར་གྱུར་པ་ཡིས། །མྱ་ངན་འདས་ -ཁྱོད་མི་བཞེད་ཀྱི(༧) <«པེ་»«སྣར་»ཀྱིས>། །འཁོར་བ་མ་དམིགས་པ་ཉིད་ཀྱི། །ཞི་དེ་མགོན་པོ་ཁྱོད་ཀྱིས་ +ཁྱོད་མི་བཞེད་ཀྱི།(༧) <«པེ་»«སྣར་»ཀྱིས།> །འཁོར་བ་མ་དམིགས་པ་ཉིད་ཀྱི། །ཞི་དེ་མགོན་པོ་ཁྱོད་ཀྱིས་ 1-190 རྟོགས། །ཁྱོད་ཀྱིས་ཀུན་ནས་ཉོན་མོངས་དང་། །རྣམ་བྱང་རོ་གཅིག་གྱུར་རིག་ པས། །ཆོས་དབྱིངས་མངོན་པར་དབྱེར་མེད་པ། །ཀུན་དུ་རྣམ་པར་དག་པར་ @@ -19,14 +19,14 @@ པར་གྱུར་པ་མི་མངའ་བས། །ཆོས་རྣམས་ཀུན་ལ་བརྟེན་མ་ལགས། །མགོན་ཁྱོད་ སེམས་ཅན་འདུ་ཤེས་ཀྱིས། །འཇུག་པ་ཀུན་དུ་མི་མངའ་ཡང་། །སྡུག་བསྔལ་གྱུར་ པའི་སེམས་ཅན་ལ། །སྙིང་རྗེའི་བདག་ཉིད་གྱུར་པའང་ཁྱོད། །བདེ་དང་སྡུག་ -བསྔལ་དེ་:བཞིན་དུ(༣) <«པེ་»«སྣར་»གྱུར་པ>། །རྟག་མི་རྟག་སོགས་ལ་(༤) <«པེ་»«སྣར་»ལས་>གཙོ་ཁྱོད། །དེ་ལྟའི་རྣམ་རྟོག་སྣ་ +བསྔལ་དེ་:བཞིན་དུ།(༣) <«པེ་»«སྣར་»གྱུར་པ།> །རྟག་མི་རྟག་སོགས་ལ་(༤) <«པེ་»«སྣར་»ལས་>གཙོ་ཁྱོད། །དེ་ལྟའི་རྣམ་རྟོག་སྣ་ ཚོགས་ཀྱིས། །ཐུགས་ནི་ཆགས་པར་གྱུར་མ་ལགས། །ཆོས་རྣམས་གང་དུའང་ འགྲོ་འོང་མེད། །དེ་བཞིན་ཁྱོད་ཀྱིས་(༥) <«པེ་»«སྣར་»ཀྱི་>གཤེགས་པའང་ལགས། །འགའ་རུ་ -སྤུངས་:པ་མ་མཆིས་པ(༦) <«པེ་»«སྣར་»པའང་མ་ལགས་ལ>། །དེ་ཕྱིར་(༧) <«པེ་»«སྣར་»བཞིན་>དོན་དམ་རིག་པའང་ལགས། །ཀུན་གྱི་རྗེས་ +སྤུངས་:པ་མ་མཆིས་པ།(༦) <«པེ་»«སྣར་»པའང་མ་ལགས་ལ།> །དེ་ཕྱིར་(༧) <«པེ་»«སྣར་»བཞིན་>དོན་དམ་རིག་པའང་ལགས། །ཀུན་གྱི་རྗེས་ སུ་ཞུགས་གྱུར་ཀྱང་། །འགའ་རུ་འབྱུང་བའང་མ་ལགས་ལ། །སྐྱེ་དང་ཆོས་དང་ སྐུ་རྣམས་ཀྱང་། །ཐུབ་ཆེན་ཁྱོད་ཀྱི་བསམ་མི་ཁྱབ། །གཅིག་དང་གཞན་པ་རྣམས་ སྤངས་པ། །བྲག་ཅ་ལྟ་བུའི་འགྲོ་བ་རྣམས། །འཕོ་དང་འཇིག་པ་རྣམ་(༨) <«པེ་»«སྣར་»རྣམས་>སྤངས་ -པ(༩) <«པེ་»«སྣར་»པར>། །སྨད་པ་མེད་པ་(༡༠) <«པེ་»«སྣར་»པར་>ཁྱོད་ཀྱིས་རྟོགས། །རྟག་དང་ཆད་པ་དང་བྲལ་ཞིང་། ། +པ།(༩) <«པེ་»«སྣར་»པར།> །སྨད་པ་མེད་པ་(༡༠) <«པེ་»«སྣར་»པར་>ཁྱོད་ཀྱིས་རྟོགས། །རྟག་དང་ཆད་པ་དང་བྲལ་ཞིང་། ། མཚན་ཉིད་མཚོན་བྱ་རྣམ་སྤངས་པར། །གཙོ་བོས་རྨི་ལམ་སྒྱུ་ཚོགས་(༡༡) <«པེ་»«སྣར་»སོགས་>བཞིན། ། འཁོར་བ་ངེས་པར་རྟོགས་པ་ལགས། །བག་ཆགས་གཞིར་(༡༢) <«སྣར་»བཞིར་>གྱུར་མཐར་ཐུག་པའི། ། ཁྱོད་ཀྱིས་ཉོན་མོངས་སྡིག་པ་སྤངས། །ཉོན་མོངས་ཉིད་ཀྱི་རང་བཞིན་ཡང་། ། @@ -36,10 +36,10 @@ གཟུགས་སུ་སྤྱོད་ཡུལ་ཉིད་དུ་མཐོང་། །གཟུགས་སུ་མཐོང་བས་མཐོང་མིན་ཡང་། ། མཐོང་ངོ་ཞེས་ནི་རྗོད་པར་བྱེད། །ཆོས་མཐོང་བས་ནི་ཤིན་དུ་མཐོང་། །ཆོས་ ཉིད་མཐོང་བ་མ་ཡིན་ནོ། །ཁོང་སྟོང་ཁྱོད་ཀྱི་སྐུ་ལ་མེད། །ཤ་དང་རུས་པ་ -ཁྲག་:མེད་ཀྱང་(༡) <«པེ་»«སྣར་»ཀྱང་མེད>། །ནམ་མཁའི་དབང་པོའི་གཞུ་བཞིན་དུ། །ཁྱོད་ཀྱི་སྐུ་ནི་སྟོན་ +ཁྲག་:མེད་ཀྱང་།(༡) <«པེ་»«སྣར་»ཀྱང་མེད།> །ནམ་མཁའི་དབང་པོའི་གཞུ་བཞིན་དུ། །ཁྱོད་ཀྱི་སྐུ་ནི་སྟོན་ པར་མཛད། །སྐུ་ལ་བསྙུན་མེད་:མི་གཙང་(༢) <«པེ་»«སྣར་»རུས་པའང་>མེད། །བཀྲེས་དང་སྐོམ་པ་འབྱུང་ མེད་ཀྱང་། །ཁྱོད་ནི་འཇིག་རྟེན་རྗེས་འཇུག་ཕྱིར། །འཇིག་རྟེན་སྤྱོད་པའང་ -སྟོན་(༣) <«པེ་»«སྣར་»བསྟེན་>པར་མཛད། །ལས་ཀྱི་སྒྲིབ་པའི་སྐྱོན་རྣམས་ནི(༤) <«པེ་»«སྣར་»ཀྱང་>། །སྡིག་མེད་ཁྱོད་ཀྱིས་(༥) <«པེ་»«སྣར་»ཀྱི་> +སྟོན་(༣) <«པེ་»«སྣར་»བསྟེན་>པར་མཛད། །ལས་ཀྱི་སྒྲིབ་པའི་སྐྱོན་རྣམས་ནི།(༤) <«པེ་»«སྣར་»ཀྱང་།> །སྡིག་མེད་ཁྱོད་ཀྱིས་(༥) <«པེ་»«སྣར་»ཀྱི་> ཀུན་སྤངས་ཀྱང་། །ཁྱོད་ཀྱིས་(༦) <«པེ་»«སྣར་»ཀྱི་>སེམས་ཅན་རྗེས་གཟུང་(༧) <«པེ་»«སྣར་»འཇུག་>ཕྱིར། །ལས་སྤངས་ པར་(༨) <«པེ་»«སྣར་»པ་>ཡང་རབ་ཏུ་བསྟན། །ཆོས་ཀྱི་དབྱིངས་ལ་དབྱེར་མེད་ཕྱིར། །གཙོ་བོ་ཐེག་ དབྱེར་(༩) <«པེ་»«སྣར་»དབྱེ་>མ་མཆིས་ཀྱང་། །ཁྱོད་ཀྱི་(༡༠) <«པེ་»«སྣར་»ཀྱིས་>ཐེག་པ་གསུམ་བསྟན་པ། །སེམས་ཅན་