Библиотека
|
ваш профиль |
Историческая информатика
Правильная ссылка на статью:
Ринчинов О.С.
Диахронический корпус бурятского языка как цифровой инструмент исторических исследований: подходы, решения, экспериментальные исследования
// Историческая информатика.
2020. № 2.
С. 26-34.
DOI: 10.7256/2585-7797.2020.2.33446 URL: https://nbpublish.com/library_read_article.php?id=33446
Диахронический корпус бурятского языка как цифровой инструмент исторических исследований: подходы, решения, экспериментальные исследования
DOI: 10.7256/2585-7797.2020.2.33446Дата направления статьи в редакцию: 13-07-2020Дата публикации: 20-07-2020Аннотация: В статье рассмотрены вопросы использования диахронического корпуса бурятского языка, составленного на основе написанных на старомонгольской письменности летописей, для реконструкции истории и исторической географии бурятского народа. В этой связи обсуждены основные проблемы семантической разметки корпусных данных, размер которого в настоящее время достигает 82 тыс. словоупотреблений. Новизна исследования заключается в том, что впервые объектом применения методов компьютерной лингвистики являются тексты на классическом монгольском языке, представленные в латинизированной транслитерации. Описаны подходы к разработке онтологической схемы историко-культурной предметной области, выявлению элементов родо-племенного и географического контекстов. На основе вычислительного эксперимента, проведенного с использованием СУБД MS Access и языка SQL, показаны преимущества использования методологии авторитетного контроля, в частности, объектов категорий «род/семья» и «место», для первичного анализа корпусных данных и формирования основных семантических кластеров. Применение авторитетных записей позволило в существенной степени ускорить накопление эмпирических данных для автоматизации содержательного анализа текстов, включенных в корпус. Проведенные эксперименты позволили определить направления дальнейшей работы по созданию и совершенствованию инструментов семантической разметки диахронического корпуса бурятского языка и превращению его в удобный инструмент исторических исследований. Ключевые слова: бурятские летописи, диахронический корпус, история, семантическая разметка, авторитетный контроль, топонимы, этнонимы, родо-племенная структура, онтология, семантический кластерИсследование выполнено при поддержке РФФИ в рамках проекта № 18012-00665 «Старописьменные памятники бурят как культурное достояние» (АААА-А18-118012590033-7). Abstract: The article studies the diachronic corpus of the Buryat language compiled on the basis of annals written in old Mongolian used to reconstruct the history and historical geography of the Buryat people. In this regard, the article discusses the main problems of semantic markup of corpus data. The size of the corpus currently exceeds 82,000 words. The research novelty is that classical Mongolian texts presented in Latin transliteration are addressed by computer linguistics methods for the first time. The author describes approaches to develop the ontological outline of the historical and cultural subject area as well identifies the kinship and geographical context elements. The MS Access and SQL simulation experiment demonstrates the advantages of the authority control methodology, in particular the “family” and “place” categories, for the initial analysis of corpus data and the formation of semantic clusters. The use of authoritative records has significantly accelerated the accumulation of empirical data for automation of the substantive analysis of texts in the corpus. These experiments allowed the author to see further steps to create and improve the Buryat language diachronic corpus semantic markup tools and transform this language into a convenient tool for historical research. Keywords: Buryat chronicles, diachronic corpus, history, semantic markup, authority control, toponyms, ethnonyms, kinship, ontology, semantic clusterБурятские летописи на старописьменном монгольском языке представляет собой ценные источники для изучения истории бурятского народа, восточных рубежей России в целом. Как особый жанр произведений они начали складываться в первой половине XIX в., когда по просьбе известного монголоведа О. М. Ковалевского буддийский священнослужитель Д.-Д. Гемпилон собрал и обобщил письменные свидетельства о происхождении селенгинских бурят, обстоятельствах принятия ими русского подданства, обустройстве в условиях российского государства [1, с. 261]. Этот сборник, содержащий более десяти исторических записок, авторами которых выступили селенгинские родовые старейшины, получил известность под названием «Бишихан запискэ». Начиная с этого памятника прослеживается традиция составления летописей, продолжавшаяся вплоть до первой трети XX в. Бурятские летописи – это особый синтетический жанр исторических сочинений, объединивший в себе родовые предания и родословные, этногенетические мифы, элементы буддийской историографии, монгольские и тибетские традиции составления исторических хроник, российские официальные и историографические источники и т.д. Эти памятники зафиксировали бытовавшие среди бурят ранние формы литературного языка, основанные на классическом монгольском языке, но испытавшие влияние разговорных бурятских диалектов и русского языка [2]. В сочетании этих факторов заключается привлекательность изучения бурятских летописей как памятников исторического, литературного и языкового творчества бурятского народа и важных первоисточников в соответствующих областях науки. Они дошли до наших времен преимущественно в рукописных списках, которые хранятся в архивах и библиотеках Улан-Удэ, Санкт-Петербурга, Москвы, Иркутска, Читы и т.д. [3] Начальный период научного изучения бурятских летописей связан с именами Н. Н. Поппе, А. И. Вострикова, В. А. Казакевича, Л. С. Пучковского и др. Так, в серии «Материалы для истории бурят-монголов» Института востоковедения АН СССР в 1930-х гг. были опубликованы набранные типографским способом тексты некоторых сочинений на старописьменном монгольском языке, сопровождаемые в ряде случаев переводом на русский язык [4, 5, 6, 7]. В последующие годы продолжалось активное изучение и издание этих ценных источников в переводах и переложениях на русский и бурятский языки [8, 9, 10]. Введенные в научный оборот материалы активно используются исследователями в разных областях – историками, этнологами, филологами, культурологами [11, 19, 20, 21, 22]. Вместе с тем, необходимо отметить, что развитие информационных технологий дает в руки исследователей новые инструменты изучения письменных памятников. Это лингвистические, статистические, геоинформационные методы, позволяющие вывести исследования летописных источников на новый уровень. Для этого необходимо, оставляя в стороне вопросы лингвистических и литературных особенностей памятников, выявить в содержании летописей элементы историко-культурного контекста. Поскольку эти исторические нарративы содержат значительное количество имен исторических лиц, названий бурятских родовых и территориальных групп, топонимов, покрывающих территории этнической Бурятии и зарубежья, различных дат и событий на протяжении нескольких веков, выявление и агрегация такого рода информации создает основу для реализации новых способов реконструкции истории и исторической географии бурятского народа. В этой связи возникает проблема организации наиболее удобного доступа к информации, содержащейся в памятниках письменности этого жанра. Решить ее появилась возможность в ходе создания диахронического корпуса бурятского языка, что является одной из задач проекта «Старописьменные памятники бурят как культурное достояние» (грант РФФИ № 18-012-00665, рук. д.ф.н. Бадмаева Л. Б.). Данный корпус создается на основе произведений бурятских авторов на старописьменном монгольском языке, причем на первом этапе основное внимание обращено на сочинения, относящиеся к жанру летописей. При организации монгольских текстов в диахронический корпус решаются задачи метатекстовой и лексико-грамматической, в том числе семантической, разметки текстов. На основе корпусных данных создаются дополнительные инструменты, такие как частотные словари, конкордансы, указатели и т.д., которые формируют современную среду исследования текста и связанных с ним контекстов, включая лингвистический и, в случае летописей, исторический. К настоящему времени (весна-лето 2020 г.) основой диахронического корпуса бурятского языка служат тексты пяти летописей, опубликованных в серии «Материалы по истории бурят-монголов» в 1930-х гг.: 1) «История баргузинских бурят» Цэдэбжаба Сахарова [4, с. 51–66]; 2) «Прошлая история хоринских и агинских бурят» Тугултур Тобоева 1863 года [6, с. 5–47]; 3) «История происхождения одиннадцати хоринских родов» Вандана Юмсунова 1875 года [6, с. 53–172]; 4) «История селенгинских монгол-бурят» Дамбижалцана Ломбоцыренова [5]; 5) «История бурятского народа одиннадцати хоринских родов» Шираб-Нимбу Хобитуева [7]. Для представления текстов на монгольском языке в электронном корпусе участниками проекта была выполнена их латинизированная транслитерация. В процессе транслитерации благодаря применению особых пунктуационных правил сохранялась исходная структура печатного текста на старомонгольской письменности. Выделялись и обозначались предложения, строки, абзацы, страницы; отмечались также параграфы и главы при их наличии в обрабатываемом тексте. Общий размер корпуса составляет больше 82,6 тыс. словоупотреблений, на основе которых был составлен частотный словарь в более чем 10,3 тыс. словоформ [12]. Метатекстовая разметка корпуса была выполнена на основе спецификаций Text Encoding Initiative (TEI), поскольку этот стандарт обеспечивает разумный баланс между потенциальной общностью модели и простотой реализации [13, 14]. Для кодирования метаинформации о текстах, входящих в состав корпуса, спецификация TEI определяет набор параметров для указания автора, названия, времени создания и издания, определения жанровой и стилистической характеристик текста, данных о его длине, источнике получения электронной версии текста и т.д. Метатекстовая разметка выполнена с применением приложения TEI Corpus Header, созданного ранее для корпуса бурятского языка. Метаописание документа, реализованное в данном проекте, содержит необходимый объем описательной информации для идентификации текстов корпуса и гибкого оперирования данными в дальнейших исследованиях [15]. При создании специализированных корпусов текстов производится лингвистическое аннотирование (морфологическое, синтаксическое) и предметно-ориентированная семантическая разметка корпусных данных. В настоящее время выполняется лексико-грамматическое аннотирование диахронического корпуса бурятского языка, что подразумевает лемматизацию данных, определение грамматических, в первую очередь морфологических, характеристик [16]. Это трудоемкий и долгий процесс, который в данном случае затрудняется отсутствием электронных словарей для старописьменного монгольского языка, представленного в транслитерации, и соответствующего программного обеспечения. Поэтому лексико-грамматическая разметка диахронического корпуса осуществляется вручную. Однако даже в настоящем виде корпус уже представляет интерес для разнообразных исследований. Например, его можно использовать для изучения исторического и географического контекста бурятских летописей, для чего необходимо предпринять частичную семантическую разметку, определяя и обозначая особым образом личные имена, этнонимы, топонимы, титулы и другие содержательные элементы, отражающие специфику и формирующие онтологическую схему исторического документа летописного жанра [17]. В предпринятом нами экспериментальном исследовании возможности автоматизации семантического анализа корпусных данных онтология предметной области была ограничена топонимами и этнонимами. Отчасти это было сделано для упрощения эксперимента; с другой стороны, данные о географии и родовой структуре очень важны в изучаемом нами историко-географическом контексте бурятских летописей. Семантическая разметка осуществлялась для частотного словаря словоформ, в котором определялись и выделялись специальными тэгами топонимы и этнонимы. Таким образом была сформирована базовая экспериментальная онтология предметной области. Затем с помощью средств СУБД MS Access осуществлялась разметка в основном массиве данных диахронического корпуса. Задача снятия омонимии, в данном случае, семантической неоднозначности, выполнялась вручную в результате изучения непосредственного контекста вычисленных точек доступа, связанных с определёнными элементами онтологии. Поскольку такая работа с текстовыми данными на старописьменном монгольском языке, приведенными в латинице, выполняется впервые, то отсутствуют инструменты, в первую очередь, словарные базы данных для автоматизации работы. Существенной помощью стали авторитетные базы данных, создаваемые в рамках других проектах по оцифровке бурятского письменного наследия, например, «Исследование корпуса бурятских родословных в Центре восточных рукописей и ксилографов ИМБТ СО РАН» (грант РФФИ № 18-49-030011, рук. канд. физ.-мат. наук Ринчинов О.С.). Этот проект нацелен на создание базы данных генеалогических источников, для структуризации которых применяется методология авторитетных данных. В ходе содержательного описания документов созданы наборы данных, соответствующих категориям авторитетного контроля «Лицо», «Род/семья», «Место» [18]. Для того, чтобы их можно было применить к исследуемому диахроническому корпусу, объекты авторитетного контроля, наряду с основным и вариантными названиями на русском и бурятском языке, были дополнены эквивалентами на старописьменном монгольском языке в латинской транслитерации (например, этнонимы: хори – qori, ашабагат – ašibaγadи т.д.; топонимы: Селенга – selingge, Витим – biitim и т.д.). Это несколько облегчает выявление в общей совокупности корпусных данных, включая частотный словарь, точек доступа (вхождений) терминов, относящихся к интересующим нас категориям, и, кроме того, обеспечивает включение диахронического корпуса в общий контекст изучения письменного наследия, проводимого в Центре восточных рукописей и ксилографов ИМБТ СО РАН. Одной из проблем, которые практически неизбежно встают в ходе исследований, является вариативность представления топонимов и этнонимов в диахроническом корпусе. Например, встречаются следующие варианты написания (в скобках приведена частота слова в корпусе): этноним сонгол (одна из родовых групп бурят) – congγol (23), congγul (8); топоним Цугол – cügel (17), čugel (1), čügel (1), cüügel (5). Такая вариативность может быть вызвана следующими причинами: 1) отсутствие нормализованной орфографии написания бурятских слов на старописьменном монгольском языке в период написания летописей в 19 в.; 2) ошибка, допущенная при переписывании оригинала (большинство произведений дошло до наших дней в списках); 3) ошибка, допущенная при наборе рукописного монгольского текста во время подготовки печатных изданий; 4) ошибка, допущенная при транслитерации печатного монгольского текста на латинице в ходе выполнения данного проекта. Проверка этих гипотез в каждом конкретном случае является трудоемкой задачей, поэтому в авторитетную запись, относящуюся к тому или иному термину, включаются все обнаруженные варианты его написания. Эксперимент по автоматизированному определению элементов историко-географического контекста в диахроническом корпусе бурятского языка выполнялся с помощью СУБД MS Access, в качестве базового средства моделирования запросов выступал SQL. Порядок проведённого нами эксперимента выглядит следующим образом: 1) выбирается произвольный термин из авторитетной базы данных; 2) в автоматизированном режиме определяются все первичные текстовые контексты (в нашем случае - предложения) в диахроническом корупсе, в которых он участвует; 3) эти участки текста автоматически исследуются на наличие точек доступа других элементов авторитетного контроля, каждое вхождение документируется особой пометой, специфической для каждой категории авторитетных данных; 4) в результате формируются смысловые пары вида «этноним: топоним», «этноним: этноним», которые могут также рассматриваться и в обращенном виде. Анализ семантической состоятельности получившихся пар в нашем эксперименте осуществлялся вручную. Так, для этнонима сонгол, имеющего варианты congγol, congγul, обнаружен 31 контекст употребления. Анализ этих контекстов дал 84 смысловые пары типа «этноним: топоним» и «этноним: этноним», помимо автопар. Из них 55 пар относятся к семантическому кластеру религиозной жизни (в окрестности каждой из них встречаются слова dačang – дацан, blam-a – лама и т.д.), 28 пар формируют кластер родо-племенной (административной) структуры или географического положения (в окрестности обнаруживаются слова obuγ / otuγ – род, orun – страна, gübiirnske – губерния, губернский и т.д.). 1 пара принадлежит общекультурному контексту: tübed üsüg – тибетская письменность. По приведенному плану осуществляется исследование других терминов, относящихся к указанным категориям авторитетных данных, производится накопление эмпирических данных для формирования семантических кластеров в историко-культурной предметной области. Накапливаемые данные послужат основой для разработки автоматизированных средств семантического анализа включенных в диахронический корпус текстов. Результаты эксперимента позволяют сделать вывод, что получаемые в автоматизированном режиме смысловые пары вполне отражают содержательные контексты анализируемых терминов, а значит, автоматизация семантического анализа корпусных данных принципиально возможна. Полная автоматизация и улучшение работы указанного алгоритма будет происходить за счет расширения семантической разметки корпусных данных, накопления статистики успешных сопоставлений и формирования кластеров, совершенствования программного обеспечения, увеличения размера самого корпуса за счет включения новых текстов. Выполненный нами вычислительный эксперимент показал, что диахронический корпус бурятского языка, создаваемый в рамках проекта «Старописьменные памятники бурят как культурное достояние», является эффективным инструментом изучения и реконструкции истории и исторической географии бурятского народа. Эффективность его использования обеспечивается интеграцией корпусных данных с другими текстовыми, геоинформационными электронными ресурсами на основе методологии авторитетных данных. Проведенные нами эксперименты показали, что авторитетные данные категорий «род/семья», «место», «лицо» являются важной частью онтологии исторической и историко-географической предметной области, в существенной мере отражая тематико-содержательную специфику произведений летописного жанра. Они также позволили определить направления дальнейшей работы по созданию и совершенствованию инструментов семантической разметки диахронического корпуса бурятского языка и превращению его в удобный и доступный инструмент исторических исследований. Библиография
1. Буряты. – М.: Наука, 2004. – 633 с.
2. Бадмаева Л. Б. Бурятские летописи как источники для изучения бурятского языка // Ученые записки Забайкальского государственного университета. Серия: Филология, история, востоковедение. – 2012. – № 2 (43). – С. 114–119. 3. Бадмаева Л. Б., Бадмаева Л. Д. Старописьменные памятники бурят и диахронический корпус: предпосылки и перспективы разработки // Найдаковские чтения-4. Тюрко-монгольский мир. Гуманитарные исследования: сборник научных статей. – Улан-Удэ: Изд-во БНЦ СО РАН, 2018. – С. 16-19. 4. Востриков А. И., Поппе Н. Н. Летопись баргузинских бурят. Тексты и исследования. Труды института востоковедения VIII. – М.-Л.: Изд-во Академии наук СССР, 1935. – 75 с. 5. Летописи селенгинских бурят. Вып. 1. Хроника убаши Дамби Джалцан Ломбо Цэрэнова 1868 г. Текст издал Н. Н. Поппе. Труды института востоковедения XII. – М.-Л.: Изд-во Академии наук СССР, 1936 г. – 55 с. 6. Летописи хоринских бурят. Вып. 1. Хроники Тугултур Тобоева и Вандана Юмсунова. Текст издал Н. Н. Поппе. Труды института востоковедения IX. – М.-Л.: Изд-во Академии наук СССР, 1935 г. – 172 с. 7. Летописи хоринских бурят. Вып. 2. Хроника Шираб-Нимбо Хобитуева. Текст издал В. А. Казакевич. Труды института востоковедения IX. – М.-Л.: Изд-во Академии наук СССР, 1935 г. – 125 с. 8. Бурятские летописи / Сост. Ш. Б. Чимитдоржиев, Ц. П. Ванчикова. – Улан-Удэ, 1995. – 196 с. 9. Шагдаров Л. Д., Бадмаева Л. Б. Язык и стиль летописи Д.-Ж. Ломбоцыренова (исследование, текст, транслитерация, перевод, переложение). – Улан-Удэ: Изд-во БНЦ СО РАН, 2014. – 216 с. 10. Бадмаева Л. Б., Очирова Г. Н. Летопись Ш.-Н. Хобитуева как памятник письменной культуры бурят. – Улан-Удэ: Бэлиг, 2018. – 288 с. 11. Цыдендамбаев Ц. Б. Бурятские исторические хроники и родословные. – Улан-Удэ, 1972. – 662 с. 12. Ринчинов О. С. Структурная разметка бурятских старописьменных сочинений для диахронического корпуса бурятского языка // Культура Центральной Азии: письменные источники. Вып. 12. – Улан-Удэ, 2019. – С. 106–117. 13. Sperberg-McQueen, C. M., Burnard, L. (eds.). Guidelines for Electronic Text Encoding and Interchange [Электронный ресурс] URL: https://tei-c.org/Vault/GL/p4beta.pdf (дата обращения 01.07.2020). 14. Шаров С. А. Представительный корпус русского языка в контексте мирового опыта // Научно-техническая информация. Сер. 2. – 2003. – № 6. – С. 9–18. 15. Ринчинов О. С., Бадмаева Л. Д., Чимитдоржиева Г. Н. Сайт Корпуса бурятского языка: лингвистический ресурс // Модели формирования культурно-информационного пространства региона: Мат-лы секции «Культура» Байкальского информационного форума (14-17 июля 2011 г.). – Улан-Удэ, 2011. – С. 59–69. 16. Гаврилова Т. С., Шалганова Т. А., Ляшевская О. Н. К задаче автоматической лексико-грамматической разметки старорусского корпуса XV-XVII вв // Вестник Православного Свято-Тихоновского гуманитарного университета. Серия 3: Филология. – 2016. – № 2 (47). – С. 7–25. 17. Загорулько Ю. А., Кононенко И. С., Сидорова Е. А. Семантический,, подход к анализу документов на основе онтологии предметной области // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции "Диалог 2006". Российский государственный гуманитарный университет. – М., 2006. – С. 468–473. 18. Ринчинов О. С. Бурятские родословные в цифровом пространстве: вопросы формирования и анализа корпуса генеалогических источников // Вестник Бурятского научного центра Сибирского отделения Российской академии наук. – 2020. – № 1 (37). – С. 102–110. 19. Скрынникова Т. Д. Функции рода у бурят (конец XIX–XX вв.) // Новый исторический вестник. – 2010. – № 4 (26). – С. 11-18. 20. Бороноева Д. Ц. Комбинации эпонимов и этнические границы в бурятской мифологической традиции // Вестник Бурятского государственного университета. – 2009. – № 6. – С. 340-344. 21. Бадмаева Л.Б., Нимаев Д.Д. Об исторических связях бурят и баргутов // Вестник Бурятского научного центра Сибирского отделения Российской академии наук. – 2013. – № 3 (11). – С. 18-25. 22. Жамсоев А. Д. Отражение разговорного языка в «Песне Шилдэй занги» в тексте «Ацагатского очерка о хори-бурятах» // Вестник Бурятского государственного университета. – 2017. – № 3. – С. 10-18. References
1. Buryaty. – M.: Nauka, 2004. – 633 s.
2. Badmaeva L. B. Buryatskie letopisi kak istochniki dlya izucheniya buryatskogo yazyka // Uchenye zapiski Zabaikal'skogo gosudarstvennogo universiteta. Seriya: Filologiya, istoriya, vostokovedenie. – 2012. – № 2 (43). – S. 114–119. 3. Badmaeva L. B., Badmaeva L. D. Staropis'mennye pamyatniki buryat i diakhronicheskii korpus: predposylki i perspektivy razrabotki // Naidakovskie chteniya-4. Tyurko-mongol'skii mir. Gumanitarnye issledovaniya: sbornik nauchnykh statei. – Ulan-Ude: Izd-vo BNTs SO RAN, 2018. – S. 16-19. 4. Vostrikov A. I., Poppe N. N. Letopis' barguzinskikh buryat. Teksty i issledovaniya. Trudy instituta vostokovedeniya VIII. – M.-L.: Izd-vo Akademii nauk SSSR, 1935. – 75 s. 5. Letopisi selenginskikh buryat. Vyp. 1. Khronika ubashi Dambi Dzhaltsan Lombo Tserenova 1868 g. Tekst izdal N. N. Poppe. Trudy instituta vostokovedeniya XII. – M.-L.: Izd-vo Akademii nauk SSSR, 1936 g. – 55 s. 6. Letopisi khorinskikh buryat. Vyp. 1. Khroniki Tugultur Toboeva i Vandana Yumsunova. Tekst izdal N. N. Poppe. Trudy instituta vostokovedeniya IX. – M.-L.: Izd-vo Akademii nauk SSSR, 1935 g. – 172 s. 7. Letopisi khorinskikh buryat. Vyp. 2. Khronika Shirab-Nimbo Khobitueva. Tekst izdal V. A. Kazakevich. Trudy instituta vostokovedeniya IX. – M.-L.: Izd-vo Akademii nauk SSSR, 1935 g. – 125 s. 8. Buryatskie letopisi / Sost. Sh. B. Chimitdorzhiev, Ts. P. Vanchikova. – Ulan-Ude, 1995. – 196 s. 9. Shagdarov L. D., Badmaeva L. B. Yazyk i stil' letopisi D.-Zh. Lombotsyrenova (issledovanie, tekst, transliteratsiya, perevod, perelozhenie). – Ulan-Ude: Izd-vo BNTs SO RAN, 2014. – 216 s. 10. Badmaeva L. B., Ochirova G. N. Letopis' Sh.-N. Khobitueva kak pamyatnik pis'mennoi kul'tury buryat. – Ulan-Ude: Belig, 2018. – 288 s. 11. Tsydendambaev Ts. B. Buryatskie istoricheskie khroniki i rodoslovnye. – Ulan-Ude, 1972. – 662 s. 12. Rinchinov O. S. Strukturnaya razmetka buryatskikh staropis'mennykh sochinenii dlya diakhronicheskogo korpusa buryatskogo yazyka // Kul'tura Tsentral'noi Azii: pis'mennye istochniki. Vyp. 12. – Ulan-Ude, 2019. – S. 106–117. 13. Sperberg-McQueen, C. M., Burnard, L. (eds.). Guidelines for Electronic Text Encoding and Interchange [Elektronnyi resurs] URL: https://tei-c.org/Vault/GL/p4beta.pdf (data obrashcheniya 01.07.2020). 14. Sharov S. A. Predstavitel'nyi korpus russkogo yazyka v kontekste mirovogo opyta // Nauchno-tekhnicheskaya informatsiya. Ser. 2. – 2003. – № 6. – S. 9–18. 15. Rinchinov O. S., Badmaeva L. D., Chimitdorzhieva G. N. Sait Korpusa buryatskogo yazyka: lingvisticheskii resurs // Modeli formirovaniya kul'turno-informatsionnogo prostranstva regiona: Mat-ly sektsii «Kul'tura» Baikal'skogo informatsionnogo foruma (14-17 iyulya 2011 g.). – Ulan-Ude, 2011. – S. 59–69. 16. Gavrilova T. S., Shalganova T. A., Lyashevskaya O. N. K zadache avtomaticheskoi leksiko-grammaticheskoi razmetki starorusskogo korpusa XV-XVII vv // Vestnik Pravoslavnogo Svyato-Tikhonovskogo gumanitarnogo universiteta. Seriya 3: Filologiya. – 2016. – № 2 (47). – S. 7–25. 17. Zagorul'ko Yu. A., Kononenko I. S., Sidorova E. A. Semanticheskii,, podkhod k analizu dokumentov na osnove ontologii predmetnoi oblasti // Komp'yuternaya lingvistika i intellektual'nye tekhnologii: trudy Mezhdunarodnoi konferentsii "Dialog 2006". Rossiiskii gosudarstvennyi gumanitarnyi universitet. – M., 2006. – S. 468–473. 18. Rinchinov O. S. Buryatskie rodoslovnye v tsifrovom prostranstve: voprosy formirovaniya i analiza korpusa genealogicheskikh istochnikov // Vestnik Buryatskogo nauchnogo tsentra Sibirskogo otdeleniya Rossiiskoi akademii nauk. – 2020. – № 1 (37). – S. 102–110. 19. Skrynnikova T. D. Funktsii roda u buryat (konets XIX–XX vv.) // Novyi istoricheskii vestnik. – 2010. – № 4 (26). – S. 11-18. 20. Boronoeva D. Ts. Kombinatsii eponimov i etnicheskie granitsy v buryatskoi mifologicheskoi traditsii // Vestnik Buryatskogo gosudarstvennogo universiteta. – 2009. – № 6. – S. 340-344. 21. Badmaeva L.B., Nimaev D.D. Ob istoricheskikh svyazyakh buryat i bargutov // Vestnik Buryatskogo nauchnogo tsentra Sibirskogo otdeleniya Rossiiskoi akademii nauk. – 2013. – № 3 (11). – S. 18-25. 22. Zhamsoev A. D. Otrazhenie razgovornogo yazyka v «Pesne Shildei zangi» v tekste «Atsagatskogo ocherka o khori-buryatakh» // Vestnik Buryatskogo gosudarstvennogo universiteta. – 2017. – № 3. – S. 10-18.
Результаты процедуры рецензирования статьи
В связи с политикой двойного слепого рецензирования личность рецензента не раскрывается.
Предметом исследования рецензируемой статьи является корпус бурятских летописей на старописьменном монгольском языке. Методология исследования основана на использовании эвристических, описательных и статистических методов. Актуальность статьи обусловлена тем фактором, что в настоящее время все большую популярность при сборе и анализе практического материала приобретает корпусная лингвистика. Широкое распространения данных исследований связано со стремительным развитием информационных технологий, использование которых открывает перед исследователями новые перспективы. Поднятая автором тема до сих пор освещалась только в статье тезисного характера, опубликованной в 2018 году Бадмаевой Л. Б., Бадмаевой Л. Д. по итогам выступления на Четвертых Найдаковских чтениях. Тюрко-монгольский мир: «Старописьменные памятники бурят и диахронический корпус: предпосылки и перспективы разработки». В библиографическом списке данной статьи нет, между тем в ней содержится информация, которая дополняет рецензируемую статью, поэтому статью Бадмаевой Л. Б., Бадмаевой Л. Д. следует добавить в библиографию. Дублирующую информацию при этом следует из рецензируемой статьи исключить, поскольку ссылки на выше названную публикацию, находящуюся в открытом доступе на сайте file:///C:/Users/Admin/Downloads/Naidakovskiye_chteniya_4.pdf будет вполне достаточно. Научная новизна заключается в наличие ряда оригинальных выводов, которые были сделаны по результатам исследования о том, что получаемые в автоматизированном режиме смысловые пары вполне отражают содержательные контексты анализируемых терминов, а значит, автоматизация семантического анализа корпусных данных принципиально возможна. Полная автоматизация и улучшение работы указанного алгоритма будет происходить за счет расширения семантической разметки корпусных данных, накопления статистики успешных сопоставлений и формирования кластеров, совершенствования программного обеспечения, увеличения размера самого корпуса за счет включения новых текстов. Стиль статьи научный. Текст состоит из введения, основной части и заключения. Во введение автором обосновывается научная значимость бурятских летописей, которые представляют особый синтетический жанр исторических сочинений, объединивший в себе родовые предания и родословные, элементы буддийской историографии, монгольские и тибетские традиции составления исторических хроник, российские официальные и историографические источники. Здесь же излагается краткая историография их изучения, которая более подробно прописана в упомянутой статье Бадмаевой Л. Б., Бадмаевой Л. Д., поэтому дублировать её не стоит. В основной части статьи автором дается источниковедческая характеристика бурятских летописей, подробно описываются использованные при их изучения компьютерные методы и проблемы, с которыми при этом пришлось столкнуться. Описанный автором опыт важен для исследователей, занимающихся изучением сходных проблем. По сути, описание использованных при исследовании компьютерных программ, является основным содержанием статьи. Автор в основном пишет о возможностях подобного анализа бурятских летописей и очень мало о конкретных результатах исследования. Поэтому логичнее было бы назвать статью: «Опыт использования цифровых технологий в изучении диахронического корпуса бурятского языка». В случае сохранения прежнего названия следует расширить ту её часть, в которой описаны результаты семантического анализа. В теперешнем виде её содержание исчерпывается одним абзацем. В заключении автор приходит к выводу, что диахронический корпус бурятского языка, является эффективным инструментом изучения и реконструкции истории и исторической географии бурятского народа. Эффективность его использования обеспечивается интеграцией корпусных данных с другими текстовыми, геоинформационными электронными ресурсами на основе методологии авторитетных данных. Библиография статьи насчитывает 18 источников, которые достаточно полно отражают проблематику исследования, необходимо только добавить ссылку на статью Л.Б. и Л.Д. Бадмаевых. Статья представляет интерес как для исследователей, интересующихся проблемами изучения бурятского языка, так и специалистов по лингвистике, использующих в своих исследованиях цифровые технологии. Статья может быть рекомендована к печати, после устранения выше указанных замечаний. Замечания главного редактора от 17.07.2020: "Автор доработал статью в соответствии с замечаниями рецензента" |