Найханов Н.В., Дышенов Б.А. —
Определение семантической близости понятий на основе использования ссылок Википедии
// Программные системы и вычислительные методы. – 2016. – № 3.
– С. 250 - 257.
DOI: 10.7256/2454-0714.2016.3.19560
Читать статью
Аннотация: Предметом исследования является семантическая близость понятий. Объектом исследования меры семантической близости понятий. Авторы рассматривают такие аспекты темы как обоснование выбора фоновых знаний, построение ссылочного графа и измерение связанности между понятиями. В более ранних работах авторов семантическая близость вычислялась на основе статистических характеристик с применением различных методов контекстного анализа, например, латентно-семантического анализа. Данная работа является первым опытом работы со ссылочными методами определения семантической близости. Поэтому фокус сделан на простоту вычисления меры. В статье определение семантической близости основывается на методе WLM (Wikipedia Link-based Measure) и меры близости по отдельным типам ссылок М.И. Варламова, А.В. Коршунова. В отличие от известных мер семантической близости, основанных на использовании базы данных Википедии, предложенная в работе мера использует простые ссылки статей базы данных Википедии типа "См. также" (See also) и "Ссылки" (Links, External links). Такой подход позволяет повысить производительность алгоритма и применять в задачах, требующих не высокой точности результата, а большей производительности алгоритма. К таким задачам можно отнести установление соответствия между компетенциями образовательного стандарта и аннотациями дисциплин учебного плана или задачу анализа ответов студентов на открытые по форме вопросы. Разработанная мера является дешевой, достаточно точной и доступной.
Abstract: The research question is the semantic similarity of terms. The object of the research is the measures of the semantic similarity of terms. The authors consider such aspects as the rationale for the choice of the theme of background knowledge, the construction of a graph of links and measurement of the similarity between concepts. In earlier researches the semantic similarity was calculated based on the statistical characteristics using different contextual analysis methods such as the latent semantic analysis. The given research is the first experience with the reference methods for determining the semantic similarity. Therefore, the focus is made on the ease of calculation steps. Within the framework of the researc determinatino of the semantic similarity is based on the WLM (Wikipedia Link-based Measure) method and similarity measures for separate types of references offered by M. Varlamov and A. Korshunov. In contrast to the well-known measures of the semantic similarity based on the use of Wikipedia database, the measure offered by the authors of the given research uses simple links to Wikipedia articles such as "See also" and "Links" or "External links". This approach allows to improve the performance of the algorithm and is designed for use in applications requiring not a high accuracy of the result but a better performance of the algorithm. These tasks include establishing the correspondence between the competencies of the educational standard and abstracts of curriculum disciplines or the task of analyzing the students' answers to the open questions in the form. The developed measure is cheap, reasonably accurate and accessible.