Менщиков А.А., Комарова А.В., Гатчин Ю.А., Полев А.В. —
Разработка системы автоматического категорирования тематики страниц веб-ресурса
// Программные системы и вычислительные методы. – 2016. – № 4.
– С. 383 - 391.
DOI: 10.7256/2454-0714.2016.4.21438
Читать статью
Аннотация: В данной статье рассматриваются вопросы автоматической обработки содержимого веб-ресурсов. Поскольку скорость устаревания передаваемой во всемирной сети информации очень велика, актуальной темой становится своевременное извлечение необходимых данных из сети интернет. Объектом исследования являются веб-ресурсы, содержащие в себе неадаптированный к автоматизированной обработке текст. Предметом исследования является набор программных средств и методов. Особое внимание уделяется определению категорий объявлений, расположенных на специализированных сайтах. Также рассматриваются прикладные аспекты разработки универсальной архитектуры систем сбора информации. В ходе данного исследования использовались следующие методы: аналитический обзор основных принципов разработки систем автоматизированного сбора информации и анализа естественных языков. Для получения практико-ориентированного результата использовались методы синтеза и анализа. Особым вкладом авторов в исследование темы является разоработка автоматизированной системы сбора, обработки и классификации информации, содержащейся на веб-ресурсе. Новизна исследования заключается в использовании нового подхода к решению данной проблемы на основе учета семантики и структуры характерной для конкретных сайтов. Основными выводами проведенного исследования являются применимость и эффективность используемого метода классификации для решения данной задачи.
Abstract: This article reviews the problems of automatic processing of web content. Since the speed of obsolescence of information in the global network is very high, the problem of prompt extraction of the necessary data from the Internet becomes more urgent. The research focuses on the web resources that contain text, unadapted to the automated processing. The subject of the research is a set of software and methods. A particular attention is paid to the categorization of ads placed on specialized websites. The authors also review practical aspects of the development of a universal architecture of information-gathering systems. The following methods were used during this study: analytical review of the main principles of development of systems of automated information gathering and analysis of natural languages. For obtaining practice-oriented methods of synthesis and analysis results were used. A special contribution of the authors of the study is in developing an automated system for collecting, processing and classification of the information contained on the web-site. The novelty of the research is to use a new approach to solve this problem by taking into account the semantics and structure characteristic for specific sites. The main conclusions of the study are the applicability and effectiveness of the classification method for solving this problem.
Менщиков А.А., Гатчин Ю.А. —
Методы обнаружения автоматизированного сбора информации с веб-ресурсов
// Кибернетика и программирование. – 2015. – № 5.
– С. 136 - 157.
DOI: 10.7256/2306-4196.2015.5.16589
URL: https://e-notabene.ru/kp/article_16589.html
Читать статью
Аннотация: В данной статье рассматриваются методы обнаружения автоматизированного сбора информации с веб-ресурсов. Приводится классификация данных методов, учитывающая современные подходы. Производится анализ существующих методов обнаружения и противодействия веб-роботам, возможностей их комбинирования и ограничения использования. На сегодняшний день не существует открытой системы обнаружения веб-роботов, пригодной для использования в реальных условиях. Поэтому разработка комплексной системы, включающей в себя различные методы, методики и подходы, является актуальной задачей. Для решения данной задачи был разработан программный продукт - прототип системы обнаружения и проведено его тестирование на реальных данных. Теоретическая значимость данного исследования состоит в развитии актуального направления в отечественном сегменте, разработке системы обнаружения веб-роботов на основе новейших методов и усовершенствование лучших мировых практик. Прикладная значимость заключается в создании базы для разработки рабочего инструмента, который является актуальным продуктом и обладает спросом и перспективой дальнейшего использования.
Abstract: The article deals with the problem of automated data collection from web-resources. The authors present a classification of detection methods taking into account modern approaches. The article shows an analysis of existing methods for detection and countering web robots. The authors study the possibilities and limitations of combining methods. To date, there is no open system of web robots detection that would be suitable for use in real conditions. Therefore the development of an integrated system, that would include a variety of methods, techniques and approaches, is an urgent task. To solve this problem the authors developed a software product – prototype of such detection system. The system was tested on real data. The theoretical significance of this study is in the development of the current trend in the domestic segment, making a system of web robots detection based on the latest methods and the improvement of global best practices. Applied significance is in creation of a database for the development of demanded and promising software.