Кузнецов А.В. —
Компьютерный анализ текстов на латинском языке: Латентно-семантический анализ «Истории готов, вандалов и свевов» Исидора Севильского
// Историческая информатика. – 2020. – № 2.
– С. 202 - 217.
DOI: 10.7256/2585-7797.2020.2.32961
URL: https://e-notabene.ru/istinf/article_32961.html
Читать статью
Аннотация: В статье предпринимается попытка с использованием современных методов интеллектуального анализа текстов исследовать латиноязычный текст хроники «История готов, вандалов и свевов» выдающегося богослова и ученого VII века Исидора Севильского. Ставится цель проверить выдвинутую в историографии гипотезу о наличии у автора представлений об определенной иерархии варварских народов. Основное внимание направлено на раскрытие неявных семантических взаимоотношений между различными частями произведения с целью уточнения отношения автора к трем варварским народам. Анализ текста проводился на языке программирования R. В качестве конкретного метода бы выбран метод латентно-семантического анализа, позволяющий проводить сравнение и кластеризацию текстов на основе семантического пространства, построенного путем сингулярного разложения терм-документной матрицы. Новизна исследования заключается в том, что впервые реализован полный цикл латентно-семантического анализа средневекового латиноязычного текста. Проведена предварительная подготовка, построено семантическое пространство текста памятника, осуществлено сравнение семантической схожести текстов на основе меры косинусного сходства. Результаты анализа позволяют утверждать, что Исидор Севильский действительно выстраивает иерархию из трех варварских народов, придавая большее сходство описанию вестготов и свевов и особняком ставя вандалов.
Abstract: The article attempts to study the Latin text of the chronicle “Historia de regibus Gothorum, Wandalorum et Sueborum” written by the famous 17th c. theologist and scholar Isidoro de Sevilla by means of advanced methods of intellectual text analysis. The main goal is to verify the hypothesis that the author had ideas about the hierarchy of barbarians. The main focus is to clarify the implicit semantic relationship between different parts of the chronicle in order to find out the author’s attitude to these three barbaric groups. The analysis of the text was performed with the R programming language. The specific method is that of latent semantic analysis providing for comparing clustering of texts on the basis of semantic space designed through the singular decomposition of term-document matrix. The research novelty of the study is that it is the first time when a full cycle latent semantic analysis of a Medieval Latin text has been performed which covered the text preprocessing, the creation of the semantic space and the calculation of the semantic similarity of texts on the basis of cosine similarity measure. The analysis results suggest that Isidoro de Sevilla really built the hierarchy of three barbarian groups providing greater similarity to the description of the Visigoths and the Suebi and putting the Vandals apart.