Ринчинов О.С. —
Диахронический корпус бурятского языка как цифровой инструмент исторических исследований: подходы, решения, экспериментальные исследования
// Историческая информатика. – 2020. – № 2.
– С. 26 - 34.
DOI: 10.7256/2585-7797.2020.2.33446
URL: https://e-notabene.ru/istinf/article_33446.html
Читать статью
Аннотация: В статье рассмотрены вопросы использования диахронического корпуса бурятского языка, составленного на основе написанных на старомонгольской письменности летописей, для реконструкции истории и исторической географии бурятского народа. В этой связи обсуждены основные проблемы семантической разметки корпусных данных, размер которого в настоящее время достигает 82 тыс. словоупотреблений. Новизна исследования заключается в том, что впервые объектом применения методов компьютерной лингвистики являются тексты на классическом монгольском языке, представленные в латинизированной транслитерации. Описаны подходы к разработке онтологической схемы историко-культурной предметной области, выявлению элементов родо-племенного и географического контекстов. На основе вычислительного эксперимента, проведенного с использованием СУБД MS Access и языка SQL, показаны преимущества использования методологии авторитетного контроля, в частности, объектов категорий «род/семья» и «место», для первичного анализа корпусных данных и формирования основных семантических кластеров. Применение авторитетных записей позволило в существенной степени ускорить накопление эмпирических данных для автоматизации содержательного анализа текстов, включенных в корпус. Проведенные эксперименты позволили определить направления дальнейшей работы по созданию и совершенствованию инструментов семантической разметки диахронического корпуса бурятского языка и превращению его в удобный инструмент исторических исследований.
Abstract: The article studies the diachronic corpus of the Buryat language compiled on the basis of annals written in old Mongolian used to reconstruct the history and historical geography of the Buryat people. In this regard, the article discusses the main problems of semantic markup of corpus data. The size of the corpus currently exceeds 82,000 words. The research novelty is that classical Mongolian texts presented in Latin transliteration are addressed by computer linguistics methods for the first time. The author describes approaches to develop the ontological outline of the historical and cultural subject area as well identifies the kinship and geographical context elements. The MS Access and SQL simulation experiment demonstrates the advantages of the authority control methodology, in particular the “family” and “place” categories, for the initial analysis of corpus data and the formation of semantic clusters. The use of authoritative records has significantly accelerated the accumulation of empirical data for automation of the substantive analysis of texts in the corpus. These experiments allowed the author to see further steps to create and improve the Buryat language diachronic corpus semantic markup tools and transform this language into a convenient tool for historical research.