Искусственный интеллект и наука о данных
Правильная ссылка на статью:
Дебенова З.А., Цыпилова С.С., Цыренова Н.Д. Памятники на монгольской письменности: опыт создания параллельного корпуса // Историческая информатика. 2025. № 2. С. 1-10. DOI: 10.7256/2585-7797.2025.2.73930 EDN: MMDRBC URL: https://nbpublish.com/library_read_article.php?id=73930
Читать статью
Результаты процедуры рецензирования статьи:
|
EDN: MMDRBC
|
Аннотация:
Данная статья освещает результаты работы по созданию параллельного корпуса бурятских источников на монгольской письменности. Проект осуществляется при поддержке РНФ на источниковой базе Центра восточных рукописей и ксилографов ИМБТ СО РАН. Предметом исследования является процесс создания базы данных корпуса, специфика составления, в частности выборки материалов. На данный момент в разрабатываемый корпус вошли следующие документы из архивных фондов ЦВРК ИМБТ СО РАН: тексты исторического содержания – «Краткий очерк истории хори-монгольских бурят», «Об истории местности Зугалай»; официальный документ «Протокол всебурятского собрания в Чите 1917 года»; этнографическое сочинение «Повествование о Самдан нойоне», медицинское сочинение «Заметки тибетского врача Дондуба Мункуева»; произведение буддийской дидактической литературы «Субхашита» в переводе Галсан-Жимбы Тугулдурова. Для анализа рукописных, печатных и ксилографических текстов на монгольской письменности применялись общенаучные и источниковедческие методы. Рассмотрены процессы отбора материалов, их транслитерации и перевода, а также содержательные (тематика, лексика) и технические аспекты (опечатки, пагинация, числительные). Параллельный русскоязычный вариант создаётся научной группой. Авторы подчеркивают значимость создания параллельного корпуса как ресурса для дальнейших исследований в области бурятского языкознания, переводоведения и культурологии, а также его роль в популяризации старомонгольской письменности среди широкой общественности, а также сохранении нематериального наследия Байкальского региона. Корпус представляет собой уникальную базу данных для дальнейших исследований в различных областях науки и т. д. Рассмотренные тексты послужат базой для развития алгоритмов машинного перевода, а проводимая на данном этапе работа поможет будущим разработчикам создавать более эффективные алгоритмы. Перспективным представляется создание специализированной базы данных, открытой не только для исследователей, но и для представителей образовательной сферы, профессиональных переводчиков, а также всех лиц, проявляющих научный или культурный интерес к письменному наследию.
Ключевые слова:
старомонгольская письменность, параллельный корпус, письменные источники, Бурятия, ЦВРК, Байкальский регион, нематериальное наследие, машинный перевод, оцифровка, текстовый корпус
Abstract:
This article highlights the results of the work on creating a parallel corpus of Buryat sources in Mongolian script. The project is being carried out with the support of the Russian Science Foundation, based on the archival materials from the Center for Eastern Manuscripts and Xylographs of the IMBT SB RAS. The subject of the research is the process of creating a database for the corpus, the specifics of compiling it, particularly the selection of materials. Currently, the developing corpus includes the following documents from the archival funds of the CVRK IMBT SB RAS: texts of historical content—"A Brief Outline of the History of Khori-Mongolian Buryats," "On the History of the Zugalai Region"; an official document "Protocol of the All-Buryat Assembly in Chita in 1917"; an ethnographic composition "Narrative of Samdan Noyon," a medical work "Notes of Tibetan Doctor Donduba Munkuyev"; a work of Buddhist didactic literature "Subhashita" translated by Galsan-Jimba Tuguldur. General scientific and source study methods were applied to the analysis of handwritten, printed, and xylographic texts in Mongolian script. The processes of material selection, their transliteration and translation, as well as substantive (thematic, lexical) and technical aspects (typos, pagination, numerals) were examined. The parallel Russian-language version is being created by the research group. The authors emphasize the significance of creating a parallel corpus as a resource for further research in the field of Buryat linguistics, translation studies, and cultural studies, as well as its role in promoting Old Mongolian script among the general public and preserving the intangible heritage of the Baikal region. The corpus represents a unique database for further research in various fields of science, etc. The texts considered will serve as a basis for the development of machine translation algorithms, and the work being conducted at this stage will help future developers create more effective algorithms. The creation of a specialized database that is open not only to researchers but also to representatives of the educational sector, professional translators, and anyone showing a scientific or cultural interest in written heritage appears promising.
Keywords:
machine translation, intangible heritage, Baikal region, Center of Oriental Manuscripts and Xylographs, Buryatia, written sources, parallel corpus, Mongolian script, digitization, text corpus