Системный анализ, поиск, анализ и фильтрация информации
Правильная ссылка на статью:
Глазкова А.В.
Статистическая оценка информативности признаков для задачи поиска семантически близких предложений
// Программные системы и вычислительные методы.
2020. № 1.
С. 8-17.
DOI: 10.7256/2454-0714.2020.1.31728 URL: https://nbpublish.com/library_read_article.php?id=31728
Аннотация:
В работе представлены результаты оценки информативности количественных и бинарных признаков для решения задачи поиска семантически близких предложений (парафразов). Рассмотрены три типа признаков: построенные на векторных представлениях слов (по модели Word2Vec), основанные на извлечении чисел и структурированной информации и отражающие количественные характеристики текста. В качестве показателей информативности используются доля парафразов среди примеров, обладающих признаком, и доля парафразов, обладающих признаком (для бинарных характеристик), а также оценки с помощью метода накопленных частот (для количественных признаков). Оценка проведена на русском корпусе парафразов. Набор рассмотренных в работе признаков апробирован в качестве входных данных для двух моделей машинного обучения для определения семантически близких предложений: машины опорных векторов (SVM) и рекуррентной нейросетевой модели. Первая модель принимает в качестве входных параметров только рассмотренный набор признаков, вторая – текст в виде последовательностей (sequences) и набор признаков в качестве дополнительного входа. Качество моделей составило соответственно 67,06% (по F-мере) и 69,49% (по точности) и 79,85% (по F-мере) и 74,16% (по точности). Полученный в работе результат сравним с лучшими результатами систем, представленных в 2017 на соревновании по определению парафраза для русского языка (второй результат по F-мере, третий результат по точности). Результаты, предложенные в работе, могут быть использованы как при реализации моделей поиска семантически близких фрагментов текстов на естественном языке, так и для анализа русскоязычных парафразов с точки зрения компьютерной лингвистики.
Ключевые слова:
семантическая близость, классификация текстов, поиск парафразов, нейронная сеть, машина опорных векторов, информативность признаков, накопленные частоты, статистическая оценка, отбор признаков, машинное обучение
Abstract:
The paper presents the results of evaluating the informative value of quantitative and binary signs to solve the problem of finding semantically close sentences (paraphrases). Three types of signs are considered in the article: those built on vector representations of words (according to the Word2Vec model), based on the extraction of numbers and structured information and reflecting the quantitative characteristics of the text. As indicators of information content, the percentage of paraphrases among examples with a characteristic, and the percentage of paraphrases with a attribute (for binary characteristics), as well as estimates using the accumulated frequency method (for quantitative indicators) are used. The assessment was conducted on the Russian paraphrase corps. The set of features considered in the work was tested as input for two machine learning models for defining semantically close sentences: reference vector machines (SVMs) and a recurrent neural network model. The first model accepts only the considered set of signs as input parameters, the second - the text in the form of sequences and the set of signs as an additional input. The quality of the models was 67.06% (F-measure) and 69.49% (accuracy) and 79.85% (F-measure) and 74.16% (accuracy), respectively. The result obtained in the work is comparable with the best results of the systems presented in 2017 at the competition for the definition of paraphrase for the Russian language (the second result for the F-measure, the third result for accuracy). The results proposed in the work can be used both in the implementation of search models for semantically close fragments of texts in natural language, and for the analysis of Russian-language paraphrases from the point of view of computer linguistics.
Keywords:
accumulated frequencies, feature informativeness, support vector machine, neural network, paraphrase detection, text classification, semantic similarity, statistical evaluation, feature selection, machine learning