Рус Eng Cn Перевести страницу на:  
Please select your language to translate the article


You can just close the window to don't translate
Библиотека
ваш профиль

Вернуться к содержанию

Программные системы и вычислительные методы
Правильная ссылка на статью:

Найханов Н.В., Дышенов Б.А. Определение семантической близости понятий на основе использования ссылок Википедии

Аннотация: Предметом исследования является семантическая близость понятий. Объектом исследования меры семантической близости понятий. Авторы рассматривают такие аспекты темы как обоснование выбора фоновых знаний, построение ссылочного графа и измерение связанности между понятиями. В более ранних работах авторов семантическая близость вычислялась на основе статистических характеристик с применением различных методов контекстного анализа, например, латентно-семантического анализа. Данная работа является первым опытом работы со ссылочными методами определения семантической близости. Поэтому фокус сделан на простоту вычисления меры. В статье определение семантической близости основывается на методе WLM (Wikipedia Link-based Measure) и меры близости по отдельным типам ссылок М.И. Варламова, А.В. Коршунова. В отличие от известных мер семантической близости, основанных на использовании базы данных Википедии, предложенная в работе мера использует простые ссылки статей базы данных Википедии типа "См. также" (See also) и "Ссылки" (Links, External links). Такой подход позволяет повысить производительность алгоритма и применять в задачах, требующих не высокой точности результата, а большей производительности алгоритма. К таким задачам можно отнести установление соответствия между компетенциями образовательного стандарта и аннотациями дисциплин учебного плана или задачу анализа ответов студентов на открытые по форме вопросы. Разработанная мера является дешевой, достаточно точной и доступной.


Ключевые слова:

понятие, семантическая близость понятий, фоновые знания, база данных Википедии, структура статьи Википедии, ссылка, ссылочный граф, расстояние между понятиями, индексация графа, мера, основанная на ссылках

Abstract: The research question is the semantic relatedness of terms. The target of research is measure the semantic relatedness of terms. The authors consider such aspects as the rationale for the choice of the theme of background knowledge, the construction of a graph of links and measurement of relatedness between concepts. In earlier studies the authors of semantic proximity is calculated based on the statistical characteristics using different contextual analysis methods, such as latent semantic analysis. This work is the first experience with the reference methods for determining a semantic relatedness. Therefore, the focus placed on ease of calculation steps. Evaluation semantic similarity is based on the WLM method and proximity measure for separate types of references of M. I. Varlamov, A.V. Korshunov. In contrast to the well-known measures of semantic proximity, based on the use of Wikipedia proposed in the measure uses a simple links Wikipedia articles such as "See. Also" and "Links". This approach allows us to raise the performance of the algorithm and is designed for use in applications requiring high accuracy of the result is not, and better performance of the algorithm. These tasks include establishing a correspondence between the competencies and educational standard annotations disciplines of the curriculum or the task of analyzing the students' answers to the open questions in the form. The developed measure is cheap, reasonably accurate and accessible.


Keywords:

link, structure of article of Wikipedia, the database of Wikipedia, background knowledge, semantic similarity of concepts, concept, link graph, distance between concepts, count indexing, link-based Measure


Эта статья может быть бесплатно загружена в формате PDF для чтения. Обращаем ваше внимание на необходимость соблюдения авторских прав, указания библиографической ссылки на статью при цитировании.

Скачать статью

Библиография
1. Witten I., Milne D. An effective, low-cost measure of semantic relatedness obtained from Wikipedia links // Proceeding of AAAI Workshop on Wikipedia and Artificial Intelligence: an Evolving Synergy, AAAI Press, Chicago, USA. 2008. Р. 25-30
2. Турдаков Д.Ю. Texterra: инфраструктура для анализа текстов / Д.Ю. Трудаков и др. // Труды Института системного программирования РАН. 2014. Т. 26. Вып. 1. С. 421-438.
3. Русская Википедия [Электронный ресурс]. – URL: https://ru.wikipedia.org/wiki/Русская_Википедия (дата обращения: 20.06.2016).
4. Варламов М.И. Расчет семантической близости концептов на основе кратчайших путей в графе ссылок Википедии [Электронный ресурс]: презентация / М.И. Варламов, А.В. Коршунов // URL: www.machinelearning.ru/wiki/images/f/fd/Varlamov2014iip.pdf (дата обращения: 20.06.2016).
5. Варламов М.И. Расчет семантической близости концептов на основе кратчайших путей в графе ссылок Википедии / М.И. Варламов, А.В. Коршунов // Машинное обучение и анализ данных. 2014. Т. 1. № 8. С. 1107-1125.
6. Английская Википедия [Электронный ресурс]. – URL: https://ru.wikipedia.org/wiki/Английская_Википедия (дата обращения: 20.06.2016).
7. Анисимов А.В. Метод вычисления семантической близости-связности между словами естественного языка / А.В. Анисимов, А.А. Марченко, В.К. Кисенко // Кибернетика и системный анализ. 2011. № 4. С.18-27.
References
1. Witten I., Milne D. An effective, low-cost measure of semantic relatedness obtained from Wikipedia links // Proceeding of AAAI Workshop on Wikipedia and Artificial Intelligence: an Evolving Synergy, AAAI Press, Chicago, USA. 2008. R. 25-30
2. Turdakov D.Yu. Texterra: infrastruktura dlya analiza tekstov / D.Yu. Trudakov i dr. // Trudy Instituta sistemnogo programmirovaniya RAN. 2014. T. 26. Vyp. 1. S. 421-438.
3. Russkaya Vikipediya [Elektronnyy resurs]. – URL: https://ru.wikipedia.org/wiki/Russkaya_Vikipediya (data obrashcheniya: 20.06.2016).
4. Varlamov M.I. Raschet semanticheskoy blizosti kontseptov na osnove kratchayshikh putey v grafe ssylok Vikipedii [Elektronnyy resurs]: prezentatsiya / M.I. Varlamov, A.V. Korshunov // URL: www.machinelearning.ru/wiki/images/f/fd/Varlamov2014iip.pdf (data obrashcheniya: 20.06.2016).
5. Varlamov M.I. Raschet semanticheskoy blizosti kontseptov na osnove kratchayshikh putey v grafe ssylok Vikipedii / M.I. Varlamov, A.V. Korshunov // Mashinnoe obuchenie i analiz dannykh. 2014. T. 1. № 8. S. 1107-1125.
6. Angliyskaya Vikipediya [Elektronnyy resurs]. – URL: https://ru.wikipedia.org/wiki/Angliyskaya_Vikipediya (data obrashcheniya: 20.06.2016).
7. Anisimov A.V. Metod vychisleniya semanticheskoy blizosti-svyaznosti mezhdu slovami estestvennogo yazyka / A.V. Anisimov, A.A. Marchenko, V.K. Kisenko // Kibernetika i sistemnyy analiz. 2011. № 4. S.18-27.