Рус Eng Cn Перевести страницу на:  
Please select your language to translate the article


You can just close the window to don't translate
Библиотека
ваш профиль

Вернуться к содержанию

Программные системы и вычислительные методы
Правильная ссылка на статью:

Симанков В.С., Толкачев Д.М. Разработка информационно-аналитической системы получения релевантных данных и знаний в сети Интернет

Аннотация: Статья посвящена разработке методических положений и алгоритмов получения релевантных данных и знаний в сети Интернет. Под релевантными данными и знаниями понимается информация, необходимая для решения какой-либо задачи или проблемы. В статье исследуются вопросы, связанные со смысловым сжатием информации, обеспечением семантической связности текстов, определением смыслового подобия текстов или фраз, а также с автоматическим поиском кратких и точных ответов на вопросы. Исследования учитывают особенности сети Интернет как источника огромного объёма неструктурированной информации. При проведении исследования использовались системный подход, теория алгоритмов, алгебра логики, теория множеств и сравнительный анализ. Представлен общий алгоритм проблемно-ориентированного автореферирования. Освещены вопросы поиска семантических связей между предложениями. Приведены методики составления интегрированного автореферата и выявления смыслового подобия двух текстов. Разработан алгоритм поиска ответов на вопрос. Представлены результаты разработки информационно-аналитической системы получения релевантных данных и знаний в сети Интернет.


Ключевые слова:

данные, знания, Интернет, поисковые системы, проблемно-ориентированное автореферирование, семантические связи, местоимённые анафоры, регулярные выражения, смысловое подобие, тернарное выражение

Abstract: the article is devoted to development of algorithms and methodical provisions for obtaining relevant data and knowledge on the Internet. Under the relevant data and knowledge the authors mean the information needed to solve a problem or task. The article examines issues related to semantic data compression, providing semantic coherence of the text, defining semantic similarity of texts or phrases, as well as with automatic search of brief and accurate answers to questions. Research takes into account peculiarities of the Internet as a source of huge amounts of unstructured information. The study uses a systematic approach, theory of algorithms, algebra of logic, set theory and comparative analysis. The article presents a general algorithm for the problem-oriented auto-reviewing. The authors raise the questions of finding the semantic relationships between sentences. The article describes techniques of generating an integrated review and identifying the semantic similarity of the two texts. The authors developed an algorithm of finding the answers to question and show the results of building the information-analytical system of obtaining relevant data and knowledge on the Internet.


Keywords:

data, knowledge, Internet, search engines, problem-oriented auto-reviewing, semantic connections, pronominal anaphors, regular expressions, semantic similarity, ternary expression


Эта статья может быть бесплатно загружена в формате PDF для чтения. Обращаем ваше внимание на необходимость соблюдения авторских прав, указания библиографической ссылки на статью при цитировании.

Скачать статью

Библиография
1. Симанков В.С., Толкачев Д.М. Проблемно-ориентированное автореферирование как инструмент поиска данных и знаний // Наука вчера, сегодня, завтра / Сб. ст. по материалам XIV междунар. науч.-практ. конф. № 7 (14). Новосибирск: Изд. «СибАК», 2014. – с. 31-35.
2. В.Е. Абрамов, Н.Н. Абрамова, Е.В. Некрасова, Г.Н. Росс. Статистический анализ связности текстов по общественно-политической тематике. Труды 13й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» – RCDL’2011, Воронеж, Россия, 2011. – с. 127-133.
3. Симанков В.С., Толкачев Д.М. Обеспечение смысловой связности текста автореферата // Научная дискуссия: инновации в современном мире. № 7 (27): сборник статей по материалам XХVII международной заочной научно-практической конференции. – М., Изд. «Международный центр науки и образования», 2014. – с. 12-16.
4. Perl regular expressions [Электронный ресурс]. Режим доступа: http://perldoc.perl.org/perlre.html (22.10.2014).
5. Фридл Дж. Регулярные выражения, 3-е издание. – Пер. с англ. – СПб.: Символ-Плюс, 2008. – 608 с.
6. Oliver Müller. Pattern Matching with Regular Expressions in C++ [Электронный ресурс]. Режим доступа: http://www.tldp.org/LDP/LGNET/issue27/mueller.html (22.10.2014).
7. Симанков В.С., Толкачев Д.М. Автоматическая оценка смыслового подобия текстов // Технические науки – от теории к практике / Сб. ст. по материалам XXXVII междунар. науч.-практ. конф. № 8 (33). Новосибирск: Изд. «СибАК», 2014. – с. 26-33.
8. К.Х. Ким, А.П. Савинов. Синтаксический анализатор для вопросно-ответной системы. Известия Томского политехнического университета, Т. 315. № 5, 2009. – с. 133-138.
9. START, Natural Language Question Answering System [Электронный ресурс]. Режим доступа: http://start.csail.mit.edu/index.php (22.10.2014).
10. Симанков В.С., Толкачев Д.М. Поиск ответов на вопросы в сети Интернет // Инновации в науке / Сб. ст. по материалам XХXVI межднар. науч.-практ. конф. № 8 (33). Новосибирск: Изд. «СибАК», 2014. – с. 28-35.
11. Семантическая поисковая система AskNet [Электронный ресурс]. Режим доступа: http://www.asknet.ru/ (22.10.2014).
12. Яндекс [Электронный ресурс]. Режим доступа: http://www.yandex.ru/ (22.10.2014)
References
1. Simankov V.S., Tolkachev D.M. Problemno-orientirovannoe avtoreferirovanie kak instrument poiska dannykh i znaniy // Nauka vchera, segodnya, zavtra / Sb. st. po materialam XIV mezhdunar. nauch.-prakt. konf. № 7 (14). Novosibirsk: Izd. «SibAK», 2014. – s. 31-35.
2. V.E. Abramov, N.N. Abramova, E.V. Nekrasova, G.N. Ross. Statisticheskiy analiz svyaznosti tekstov po obshchestvenno-politicheskoy tematike. Trudy 13y Vserossiyskoy nauchnoy konferentsii «Elektronnye biblioteki: perspektivnye metody i tekhnologii, elektronnye kollektsii» – RCDL’2011, Voronezh, Rossiya, 2011. – s. 127-133.
3. Simankov V.S., Tolkachev D.M. Obespechenie smyslovoy svyaznosti teksta avtoreferata // Nauchnaya diskussiya: innovatsii v sovremennom mire. № 7 (27): sbornik statey po materialam XKhVII mezhdunarodnoy zaochnoy nauchno-prakticheskoy konferentsii. – M., Izd. «Mezhdunarodnyy tsentr nauki i obrazovaniya», 2014. – s. 12-16.
4. Perl regular expressions [Elektronnyy resurs]. Rezhim dostupa: http://perldoc.perl.org/perlre.html (22.10.2014).
5. Fridl Dzh. Regulyarnye vyrazheniya, 3-e izdanie. – Per. s angl. – SPb.: Simvol-Plyus, 2008. – 608 s.
6. Oliver Müller. Pattern Matching with Regular Expressions in C++ [Elektronnyy resurs]. Rezhim dostupa: http://www.tldp.org/LDP/LGNET/issue27/mueller.html (22.10.2014).
7. Simankov V.S., Tolkachev D.M. Avtomaticheskaya otsenka smyslovogo podobiya tekstov // Tekhnicheskie nauki – ot teorii k praktike / Sb. st. po materialam XXXVII mezhdunar. nauch.-prakt. konf. № 8 (33). Novosibirsk: Izd. «SibAK», 2014. – s. 26-33.
8. K.Kh. Kim, A.P. Savinov. Sintaksicheskiy analizator dlya voprosno-otvetnoy sistemy. Izvestiya Tomskogo politekhnicheskogo universiteta, T. 315. № 5, 2009. – s. 133-138.
9. START, Natural Language Question Answering System [Elektronnyy resurs]. Rezhim dostupa: http://start.csail.mit.edu/index.php (22.10.2014).
10. Simankov V.S., Tolkachev D.M. Poisk otvetov na voprosy v seti Internet // Innovatsii v nauke / Sb. st. po materialam XKhXVI mezhdnar. nauch.-prakt. konf. № 8 (33). Novosibirsk: Izd. «SibAK», 2014. – s. 28-35.
11. Semanticheskaya poiskovaya sistema AskNet [Elektronnyy resurs]. Rezhim dostupa: http://www.asknet.ru/ (22.10.2014).
12. Yandeks [Elektronnyy resurs]. Rezhim dostupa: http://www.yandex.ru/ (22.10.2014)