Библиотека
|
ваш профиль |
Национальная безопасность / nota bene
Правильная ссылка на статью:
Горохова Р.И., Никитин П.В.
Алгоритмы обнаружения дублирующего контента в изображениях критической информационной инфраструктуры с использованием методов машинного обучения
// Национальная безопасность / nota bene.
2024. № 6.
С. 32-46.
DOI: 10.7256/2454-0668.2024.6.71885 EDN: SMNUAJ URL: https://nbpublish.com/library_read_article.php?id=71885
Алгоритмы обнаружения дублирующего контента в изображениях критической информационной инфраструктуры с использованием методов машинного обучения
DOI: 10.7256/2454-0668.2024.6.71885EDN: SMNUAJДата направления статьи в редакцию: 04-10-2024Дата публикации: 04-12-2024Аннотация: В статье рассматривается метод выявления аномалий в визуальном контенте критической информационной инфраструктуры. Этот метод основывается на сравнении хэш-строк, получаемых из визуальных данных, для обнаружения потенциальных отклонений или дублирующего контента, который может указывать на нарушения авторских прав, распространение неправомерного контента или другие угрозы безопасности. Предметом исследования является процесс выявления аномалий в изображениях критической информационной инфраструктуры (КИИ) с использованием технологии хэширования. Актуальность исследования обусловлена растущей угрозой нарушений авторских прав и распространения нелегального контента. С учетом усложнения методов кибератак и увеличения объема визуального контента, анализ и мониторинг изображений становятся особенно важными. Критическая информационная структура, включая системы государственного управления, науки, экономики и энергетики, напрямую зависят от защиты своей информации. Поэтому выявление аномалий в изображениях и их оперативное реагирование играют ключевую роль в сохранении целостности и конфиденциальности данных. Целью являются разработка алгоритма для идентификации дублирования контента и создание эффективного инструмента для мониторинга изображений. В работе применяется интеграция методов компьютерного зрения и алгоритмов машинного обучения. Разработка включает использование хэш-строк для прецизионного сравнения изображений. Научная новизна данного исследования заключается в разработке и внедрении нового подхода к выявлению аномалий в изображениях критической информационной инфраструктуры с использованием технологии хэширования. Применение технологии обеспечивает уникальные идентификаторы для визуальных данных и позволяет эффективно сравнивать и анализировать изображения. Такой подход значительно увеличивает скорости обработки данных и точность выявления дублирования контента и аномалий в изображениях. Классификация изображений на основе хэширования обеспечивает более высокую степень чувствительности к аномалиям и позволяет отсеивать ложные срабатывания, что является критически важным для организаций с высоким уровнем защищенности информации. Результаты показывают высокую эффективность предложенного метода, достигнута значительная степень точности в выявлении аномалий, что подтверждено экспериментами на реальных данных. Представленные алгоритмы продемонстрировали улучшение по сравнению с существующими решениями. Ключевые слова: критическая информационная инфраструктура, визуальный контент, аномалии, угрозы, компьютерное зрение, похожие изображения, дублирующий контент, хэш-строки, перцептивное хэширование, машинное обучениеAbstract: The authors present a method for detecting anomalies in the visual content of critical information infrastructure based on comparing hash strings obtained from visual data to detect potential deviations or duplicate content. The subject of the study is the detecting of anomalies in critical information infrastructure (CII) images using hashing technology. The relevance of the study is due to the growing threat of copyright infringement and the distribution of illegal content. Critical information structures, including public administration, science, economics and energy systems, directly depend on the protection of their information. Therefore, identifying anomalies in images and their prompt response play a key role in maintaining the integrity and confidentiality of data. The goal is to develop an algorithm for identifying duplicate content and create an effective tool for monitoring images. The work uses the integration of computer vision methods and machine learning algorithms. The development includes the use of hash strings for precise comparison of images. The scientific novelty of this study lies in the development and implementation of a new approach to detecting anomalies in images of critical information infrastructure using hashing technology. The use of the technology provides unique identifiers for visual data and allows for efficient comparison and analysis of images. This approach significantly increases the speed of data processing and the accuracy of detecting duplicate content and anomalies in images. Hash-based image classification provides a higher degree of sensitivity to anomalies and allows filtering out false positives, which is critical for organizations with a high level of information security. The results show the high efficiency of the proposed method; a significant degree of accuracy in detecting anomalies has been achieved, which is confirmed by experiments on real data. The presented algorithms have demonstrated improvement over existing solutions. Keywords: critical information infrastructure, visual content, anomalies, threats, computer vision, similar images, duplicate content, hash strings, perceptual hashing, machine learningВведение. В визуальном контенте критической информационной инфраструктуры (КИИ) могут встречаться различные виды аномалий, которые представляют потенциальные угрозы информационной безопасности. Аномалии могут быть представлены в виде вредоносных изображений, содержащих вредоносный код или скрипты (например, XSS-атаки, встроенные эксплойты) или намеренно искаженных для обхода систем фильтрации и обнаружения; фальсифицированных изображений, представляющих собой поддельные или сфабрикованные изображения, используемые для дезинформации и манипулирования или подвергшиеся манипуляциям для сокрытия или искажения информации; изображения-индикаторы компрометации, содержащие признаки вторжения, таргетированных атак или действий злоумышленников; нетипичные или подозрительные изображения, не соответствующие "нормальному" визуальному контенту, характерному для данной КИИ, демонстрирующие аномальные характеристики, отклоняющиеся от установленных шаблонов или политик безопасности или связанные с нетипичными событиями в функционировании КИИ. Следует отметить, что вопросы обеспечения безопасности исследуются очень активно в настоящее время. Информационная безопасность является важной составляющей самых различных сфер. Специфика угроз рассматривается в исследовании Ромашковой О. Н. и Каптерева А. И. [1], выявление и классификация угроз, которые могут возникать для различных объектов, включая как информационные системы, так и физические активы приведено в работе Турянской К. А. [2], актуальные угрозы, связанные с использованием облачных вычислений приведены в статье Боярчука Д. А., Фролова К. А. и Склярука В. Л. [3], ключевые аспекты, связанные с охраной информации в условиях цифровизации, включая уязвимости новых технологий, способов реагирования на инциденты и важность разработки стратегий управления рисками исследованы в работе Мустафаева А. Г., Кобзаренко Д. Н., Бучаева А. Я. [4], Емельянов А. А. анализирует риски и уязвимости, которые могут возникнуть при использовании гипервизоров, и их влияние на защиту виртуализированных сред [5]. Различные подходы предлагаются к моделированию угроз с помощью разработки сценариев для выявления уязвимостей и предсказания возможных атаки на информационные ресурсы [6]. Комплексный подход к управлению рисками и необходимость постоянного мониторинга угроз предлагается в работе Гриня В.С. [7]. Автор представляет рекомендации по предотвращению утечек информации, включая методы контроля доступа, аудит систем и обучение персонала. В статье Бекмухан А. и Усатовой О. [8] исследуются подходы к повышению уровня безопасности мультисерверных веб-приложений и систем. В работе рассматриваются методы управления рисками, включая идентификацию угроз, оценку уязвимостей, а также применение технологий для обеспечения защиты данных. Вопросы верификации информации в условиях современного информационного потока подробно рассмотрены в работе Шестеркиной Л.П., Красавиной А.В. и Хакимовой Е.М. [9]. Авторы охватывают различные аспекты процесса проверки фактов, включая методы оценки достоверности источников информации, использование эффективных инструментов и технологий, а также признаки недостоверных данных. Вопросам обработки изображений в последнее время занимается все большее количество исследователей. В статье Алпатова А. Н. [10] проведен анализ современных подходов и методов анализа видеопотока с целью выявления аномальных событий, имеющих глубокий генезис. Автор подчеркивает важность своевременного обнаружения аномалий для повышения безопасности и эффективности различных систем, таких как видеонаблюдение, охрана и мониторинг. В работе обосновываются основные характеристики глубокого генезиса аномалий, а также анализируются алгоритмы и технологии, используемые для их выявления. Ключевым аспектом исследования является применение методов машинного обучения и искусственного интеллекта для автоматизации процесса анализа и повышения точности обнаружения. В работе [11] проведено исследование применения нейронных сетей в контексте изучения визуального контента с точки зрения информационной безопасности, а в статье [12] показаны возможности различных технологий ИИ, такие как машинное обучение, анализ больших данных и нейронные сети, и их влияние на диагностику, лечение и профилактику заболеваний на основе анализа имеющихся изображений. Программно-техническое решение, включающее алгоритмы машинного обучения и методы анализа данных, которые позволяют эффективно идентифицировать потенциально опасные мультимедийные объекты приведены в статье Пилькевича С. В. и др. [13]. Кроме того, акцентируется внимание на значимости исследования в контексте повышения кибербезопасности и защиты пользователей от вредоносного контента. Механизмы, с помощью которых злоумышленники могут манипулировать изображениями, создавая искаженные данные, что может привести к ошибкам в их интерпретации рассмотрены в исследовании [14]. рассматриваются современные угрозы, связанные с воздействием вредоносных возмущений на системы компьютерного зрения. Авторы анализируют различные типы атак, сценарии их реализации и последствия для надежности и безопасности систем обработки изображений. В качестве ответа на эти угрозы авторы обсуждают существующие методы защиты и разработки, направленные на повышение устойчивости систем к вредоносным воздействиям. Рассматриваются подходы, основанные на использовании различных алгоритмов фильтрации и регуляризации, а также применение методов обучения, способных улучшить обобщающую способность моделей. В статье [15] предложен инновационный подход к выявлению вредоносного ПО. Авторы предлагают метод, в котором бинарный код программ преобразуется в изображения, что позволяет использовать уже существующие алгоритмы машинного обучения для анализа и распознавания угроз. Статья описывает процесс преобразования бинарных файлов в двумерные изображения и обосновывает выбор данной техники как средства борьбы с вредоносным ПО. В работе [16] на основе применения сверточных нейронных сетей показана возможность статического анализа приложений, представленных в виде последовательности байтов и дальнейшего перевода полученных данных в формат изображения для обнаружения вредоносных программ. Следует отметить, что многие работы были сосредоточены на преобразовании бинарных исполняемых файлов в изображения. Например, в работе [17] авторы группируют двоичные последовательности исполняемых файлов по 8-битным векторам. Преобразованные 8-битные векторы затем преобразуются в черно-белые изображения. После процесса преобразования авторы непосредственно применяют алгоритм random forest для классификации вредоносных программ, используя значения пикселей в качестве объектов. В исследованиях [18, 19] авторы извлекают визуальные признаки с помощью классических экстракторов объектов компьютерного зрения. Вопросы обнаружения вредоносных изображений и связанная с этим проблема кибербезопасности представлены в работах [20, 21]. Авторы подчеркивает, что файлы изображений могут использоваться для распространения вредоносного ПО, обходя традиционные механизмы фильтрации. Как отмечается в [22], для классификации легитимных и вредоносных файлов использовались следующие признаки: размер файла, максимальный размер маркеров, количество маркеров, количество байтов после конца файла. Для классификации легитимных и вредоносных JPEG-файлов были использованы следующие методы машинного обучения: деревья решений и ансамбли деревьев решений: случайный лес и стохастический градиентный бустинг [23]. В статье [24] авторы объясняют, что перцептивное хеширование позволяет создавать хеши изображений, которые учитывают их визуальные характеристики, а не просто битовые представления. Такой подход обеспечивает более устойчивую идентификацию, даже если изображения подвергались изменениям, таким как изменение размеров, сжатие или незначительные перемены в цветах. Авторы [25] подчеркивают, что эффективное сравнение изображений имеет ключевое значение для приложений в области компьютерного зрения, таких как управление мультимедийным контентом, цифровая фотография и системы мониторинга. В работе [26] рассматриваются различные метрики расстояния, применяемые для анализа и сравнения растровых изображений. Кроме того, авторы обсуждают влияние выбора метрики на качество распознавания и сопоставления изображений, приводят примеры сценариев, в которых различные метрики могут показывать значительные различия в продуктивности. Выявление таких аномалий в визуальном контенте критической информационной инфраструктуры является важной задачей для обеспечения ее информационной безопасности и устойчивости к киберугрозам. Применение методов глубокого обучения позволяет создавать эффективные системы обнаружения и реагирования на данные виды аномалий. Актуальность обусловлена необходимостью решения проблем, связанных управлением большим объёмом цифрового контента, выявлением дублирующегося контента, защитой авторских прав и борьбой с мошенничеством. Модели должны быть способны выявлять аномалии в визуальном контенте, которые могут указывать на наличие вредоносного ПО, фишинговых атак или других угроз информационной безопасности. Разработать подход, основанный на применении трансферного обучения и методов активного обучения, для адаптации моделей глубокого обучения к особенностям визуального контента критической информационной инфраструктуры. Цель - повысить точность и эффективность обнаружения аномалий в изображениях, загружаемых в КИИ и повышение контроля над использованием изображений за счет разработки алгоритма поиска одинаковых и похожих изображений в базе данных с использованием перцептивных хэш-строк.
Методы исследования Поиск одинаковых и похожих изображений в базе данных – это важная задача в области компьютерного зрения, обработки изображений и систем управления данными. Различные подходы и методы позволяют эффективно решать эту задачу. Хеширование изображений основано на создании уникального представления (хеша) для каждого изображения. Существует несколько методов хеширования: - перцептивное хеширование (pHash), которое использует преобразования (например, дискретное косинусное преобразование) для создания компактного представления изображений и чем больше похожи два изображения, тем ближе их хеши в значении, - классификационное хеширование (dHash и aHash), применяющее простые алгоритмы, такие как вычисление разности между соседними пикселями (dHash) или создание среднего значения (aHash). Они также создают уникальные хеши, которые позволяют быстро определять схожесть. Следующим методом является вычисление хешей, позволяющее сравнивать изображения. Для сравнения наиболее часто применяются методы: - расстояние Хэмминга, позволяющее проводить быстрое сравнение битовых последовательностей хешей, определяя количество различий между ними, - косинусное сходство, которое измеряет угол между векторами, представляющими изображения, и позволяет выявлять схожесть изображений по направлению их векторов. Также одним из методов являются особенности извлечения для более точного поиска признаков, которые представляют изображение в виде высокоуровневых характеристик: - сверточные нейронные сети (CNN) используются для извлечения глубоких признаков изображения, таких как текстуры, формы и цвета, и они представляют собой векторы, которые могут быть сравнены с помощью методов поиска, таких как kNN (k-Nearest Neighbors), - методы извлечения ключевых точек, таких алгоритмов, как SIFT (Scale-Invariant Feature Transform) и SURF (Speeded-Up Robust Features), извлекают ключевые точки и описания изображений. Анализ возможностей нескольких существующих систем поиска похожих изображений, таких как Яндекс Картинки, Google Images, Duplicate Photo Finder, VisiPics, их области применения и алгоритмов, на которых они основаны, представлены в таблице 1. Существующие решения Google Images и Яндекс Картинки имеют ограничения API, скорости и пополняемости базы данных картинок. Duplicate Photo Finder и VisiPics имеют низкую устойчивость к модификациям. Таким образом, подходящего открытого решения для поставленной задачи нет.
Таблица 1–Сравнение существующих решений
Проведённый анализ позволил сделать вывод, что разработка метода поиска похожих изображений актуальна, поскольку существующие решения не обладают всей полнотой удовлетворения выбранным критериям. Сервисы, совершающие поиск изображений в локальных файлах не устойчивы к модификациям изображения, а способны выявлять только полные дубликаты. Также в них не предусмотрен поиск для конкретного изображения, доступен только полный обход директорий и выявление всех найденных пар дубликатов. Существует несколько подходов к выявлению похожих изображений основными среди них можно выделить сравнение пикселей как последовательное сравнение значений пикселей изображений на одинаковых позициях, гистограммы изображений в виде анализа распределения яркости или цветовых характеристик изображения и формирования соответствующих гистограмм, использование свёрточных нейронных сетей, перцептивные хэши основанные на вычислении хэш-суммы изображения, которая учитывает его содержание. Сравнение методов представлено в таблице 2.
Таблица 2–Сравнение существующих методов
Метод на основе перцептивных хэш-функций прост в реализации, но при этом показывает высокую скорость и точность выявления дубликатов и похожих изображений, не требует больших вычислительных ресурсов. Сравнительный анализ существующих перцептивных хэш-алгоритмов представлен в таблице 3.
Таблица 3 – Сравнительный анализ перцептивных хэш-алгоритмов
В результате сравнения выбран алгоритм хэширования на основе дискретного косинусного преобразования (ДКП), так как он является самым точным и устойчивым к модификациям изображений. Алгоритм работы выполняется по следующему алгоритму: к обработанному изображению применяется ДКП, которое позволяет разделить изображение на частоты, далее работа идет только с низкочастотными компонентами, а высокочастотные шумы и мелкие детали игнорируются, далее выполняется бинаризация, результатом которой является цепочка битов, на основе которой идет построение хэша. Бинаризация выполняется в соответствие с формулой (1). В соответствие с формулой каждый коэффициент ДКП сравнивается со средним значением всей матрицы коэффициентов, если значение больше или равно среднему, то в цепочку битов записывается значение 1, иначе – 0. На выходе получаем хэш длиной 64 бита.
где − последовательность точек сигнала, − размер изображения, − ДКП.
Для оценки надежности и дискриминационных характеристик хэширования изображений требуются метрики расстояния или сходства расстояние Хэмминга, нормализованное расстояние Хэмминга, коэффициент битовых ошибок, позволяющие определить различия между двумя схожими медиа-объектами. Исходя из этих данных, можно сделать вывод о том, являются ли изображения идентичными или совершенно различными, то есть два хэша должны отражать уровень их «визуального различия. Анализ метрик сходства по критериям скорость вычисления, сложность вычислений, объем памяти, точность вычислений, чувствительность к небольшим изменениям изображения показало эффективность работы метрики расстояние Хэмминга. В качестве метрики сходства перцептивных хэшей выбрано Расстояние Хэмминга, так как метрика проста и быстра в вычислении, подходит для работы с хэшами одинаковой длины и дает прямое представление о количестве различий. Она рассчитывается как количество позиций, в которых соответствующие символы двух битовых строк различны и d вычисляется по формуле (2):
где xi и yi – значения битов хэш-функций x и y, L – длина хэша.
Основные этапы предлагаемого метода включают в себя (рисунок 1): – предварительную обработку изображений; – подготовку базы данных; – генерацию хэша изображения; – поиск схожих изображений на основе оценки сходства.
Рисунок 1 – Основные этапы метода Этапы предварительной обработки изображения включают в себя последовательное выполнение операций: – изменение размера: бикубическая интерполяция уменьшает объём данных для обработки, устраняет высокие частоты и детализацию изображения, изображение приводятся к размеру 32x32. Бикубическая интерполяция вычисляется по формуле (3).
где – новое значение пикселя в , – значение ближайшего пикселя, – дробные части координат соответственно. – нормализация цвета: применяется метод выравнивания гистограмм для повышения устойчивости к изменениям яркости и цветовой гаммы. Выравнивание гистограммы производится в соответствие с формулой (4).
где – новое значение пикселя в , – количество уровней яркости (256), – размытие: фильтр Гаусса применяется для уменьшения шума, сглаживания текстуры и уменьшения детализации изображений. Фильтр Гаусса вычисляется по формуле (5).
– сокращение цветов: путем вычисления среднего значения каналов RGB изображение преобразуется в оттенки серого для уменьшения объёма данных. Среднее значение каналов определяется по формуле (6).
где – новое значение пикселя в , – значение красного, зеленого и синего канала. После выполнения всех операций предварительной обработки будет получена маленькая и размытая версия изображения в оттенках серого. При стандартной реализации алгоритма поиск похожих изображений осуществляется путем расчета расстояния Хэмминга между хэшом искомого изображения и каждым изображением в базе данных, что является ресурсозатратным. Для оптимизации в исследовании рассмотрено пороговое расстояние Хэмминга , тогда согласно фактору сегментации хэш можно разделить на 3 подстроки. Каждая подстрока будет храниться в отдельной таблице. Фактор сегментации означает, что если разбить хэш на частей, то найдется хотя бы подстрок, для которых расстояние Хэмминга будет не более единицы.
– пороговое значение расстояния Хэмминга. Тогда у похожих изображений каждая из подстрок либо полностью совпадёт, либо будет отличаться не более, чем на один бит. Подготовка базы данных выполняется по следующему алгоритму: - предварительная обработка полученного набора изображений, - формирование хэша в виде битовых строк для каждого обработанного изображения, - деление битовой строки на подстроки и получение набора подстрок изображения, - создание таблиц для каждой подстроки, - создание индексов и фильтра Блума для таблиц подстрок. Таким образом, поиск изображений выполняется по алгоритму на рисунке 2. Хэш для искомого изображения делится на 3 подстроки. Для выявления похожих изображений достаточно сгенерировать набор комбинаций подстрок, отличающихся максимум на один бит и далее проверять их наличие в базе данных.
Рисунок 2 – Алгоритм поиска похожих изображений в базе данных
Для увеличения скорости поиска используются B-tree индексы и фильтр Блума. Фильтр Блума это вероятностная структура данных, которая может однозначно определить, что элемент отсутствует в наборе данных, таким образом уменьшая объем искомых подстрок в таблицах. Для оценки времени работы алгоритма использовался набор данных из 1200 различных изображений со средним размером 3,2 Мб, поиск каждого изображения осуществлялся 5 раз, замерялось время поиска и считался средний результат. Было проведено сравнение времени работы алгоритмов поиска изображений для стандартного алгоритма, алгоритмов с делением хэш-строк и надстройками сервера, также с добавлением индексов и фильтром Блума и предложенным методом с делением хэш-строк, надстройками сервера, добавлением индексов и фильтром Блума. Итог показал, что разработанный алгоритм с делением хэша на подстроки, настройками сервера, индексами и фильтром Блума работает в 3 раза быстрее стандартной реализации. Проводилась оценка устойчивости представленного алгоритма к модификациям изображений. Результаты проверки устойчивости разных хэш-алгоритмов к модификациям изображений показаны в таблице 4, где Ah - Хэш по среднему, Dh - Хэш на основе разности, Ph - Хэш на основе ДКП.
Таблица 4 – Устойчивость алгоритма к модификациям изображений
Результаты сравнения хэш-алгоритмов продемонстрировали, что алгоритм на основе ДКП обеспечил наивысшую устойчивость к различным типам модификаций, сохранив стабильность в 15 из 20 случаев. В то же время, хэш-алгоритм по среднему показал устойчивость только в 6 случаях, а хэш на основе разности — в 7 случаях. Эти результаты свидетельствуют о том, что хэш-алгоритм на основе ДКП является наиболее эффективным инструментом для задач поиска дубликатов изображений благодаря своей высокой стойкости к модификациям. Таким образом, предлагаемый подход поиска одинаковых и похожих изображений является эффективным.
Заключение В ходе проведенного исследования была проанализирована эффективность алгоритмов поиска изображений с использованием перцептивного хэширования. Результаты оценки времени работы алгоритмов подтвердили высокую производительность разработанного оптимизированного метода, который включает разделение хэша на подстроки, настройку серверных параметров, использование индексов и фильтра Блума. Этот подход продемонстрировал ускорение процесса поиска в три раза по сравнению с традиционным алгоритмом, основанным на вычислении расстояния Хэмминга. Кроме того, разработанный алгоритм показал хорошие результаты в отношении устойчивости к изменениям изображений. Это позволяет надежно идентифицировать дубликаты, основываясь на сравнении расстояния Хэмминга не больше трех. Важно отметить, что гипотеза о применении данного метода для поиска похожих изображений была успешно протестирована на примере аудиосигналов. Разработанный алгоритм продемонстрировал свою эффективность в выявлении дубликатов аудиозаписей и продемонстрировал устойчивость к множеству модификаций данных. Таким образом, результаты исследования подтверждают возможность применения предложенных алгоритмов в задачах, связанных как с обработкой изображений, так и с анализом аудиосигналов, что открывает новые перспективы для более широкого использования технологий перцептивного хэширования в различных областях.
Библиография
1. Ромашкова О. Н., Каптерев А. И. Анализ угроз и рисков информационной безопасности в вузе // Вестник Московского городского педагогического университета. Серия: Информатика и информатизация образования. 2023. №. 1 (63). С. 37-47.
2. Турянская К. А. Методы, модели и средства выявления, идентификации и классификации угроз нарушения информационной безопасности объектов различного вида и класса // Международный журнал гуманитарных и естественных наук. 2024. № 2-2 (89). С. 151-155. 3. Боярчук Д. А., Фролов К. А., Склярук В. Л. Угрозы информационной безопасности облачных технологий // Современные проблемы радиоэлектроники и телекоммуникаций. 2022. № 5. С. 207. 4. Мустафаев А. Г., Кобзаренко Д. Н., Бучаев А. Я. Цифровая трансформация экономики: угрозы информационной безопасности // Beneficium. 2021. № 2 (39). С. 21-26. 5. Емельянов А. А. Обеспечение информационной безопасности при использовании средств виртуализации на базе гипервизоров // Региональная информатика (РИ-2022). Юбилейная XVIII Санкт-Петербургская. 2022. С. 232. 6. Барыбина А. З. Моделирование угроз информационной безопасности сценарным подходом // Естественно-гуманитарные исследования. 2022. № 42 (4). С. 35-44. 7. Гринь В. С. Анализ угроз информационной безопасности и каналов утечки информации // StudNet. 2021. Т. 4. № 8. С. 1616-1620. 8. Бекмухан А., Усатова О. Оптимизация безопасности в мультисерверных веб-системах: эффективное управление рисками // Вестник КазАТК. 2024. Т. 133. № 4. С. 296-307. 9. Фактчекинг и верификация: учебное пособие / Л.П. Шестеркина, А.В. Красавина, Е.М. Хакимова. Челябинск: Издательский центр ЮУрГУ, 2021. 64 с. 10. Алпатов А. Н. Особенности обнаружения аномалий глубокого генезиса в видеопотоке // Системная трансформация–основа устойчивого инновационного развития. 2023. С. 19. 11. Применение нейронных сетей для распознавания образов / Е. М. Павлов, А. В. Рыжов, К. С. Баланев, И. М. Крепков // Бюллетень науки и практики. 2023. Т. 9. № 12. С. 52-58. DOI: 10.33619/2414-2948/97/06. EDN UURLEA. 12. Лазарев, Е. А. Применение компьютерного зрения и обработки изображений с помощью нейронных сетей / Е. А. Лазарев // Вестник науки. 2023. Т. 5. № 12-1(69). С. 412-415. EDN BVXPYI. 13. Пилькевич С. В. и др. Демонстратор программно-технического средства автоматизированного распознавания вредоносных мультимедийных объектов в сети интернет (итоги исследования) // Вестник Российского нового университета. Серия: Сложные системы: Модели, анализ и управление. Учредители: Российский новый университет. 2023. № 2. С. 157-175. 14. Есипов Д. А. и др. Атаки на основе вредоносных возмущений на системы обработки изображений и методы защиты от них // Научно-технический вестник информационных технологий, механики и оптики. 2023. Т. 23. № 4. С. 720-733. 15. Панчехин Н. И., Десятов А. Г., Сидоркин А. Д. Система распознавания вредоносных программ на основе представления бинарного файла в виде изображения с применением машинного обучения. 2023. Политехнический молодежный журнал. 2023. № 04. 1-10. DOI: 10.18698/2541-8009-2023-4-886. 16. Басараб М.А., Коннова Н.С. Интеллектуальные технологии на основе искусственных нейронных сетей. Москва, МГТУ им. Н.Э. Баумана, 2017. 56 с. 17. Random Forest for Malware Classification. URL: https://arxiv.org/abs/1609.07770 (accessed 20.11.2024). 18. Xu L., Zhang D., Jayasena N., Cavazos J. HADM: Hybrid Analysis for Detection of Malware. Proceedings of SAI Intelligent Systems Conference, 2018. URL: http://doi.org/10.1007/978-3-319-56991-8_51. 19. Towards Building an Intelligent Anti-Malware System: A Deep Learning Approach using Support Vector Machine (SVM) for Malware Classification. URL: https://arxiv.org/abs/1801.00318 (accessed November 20, 2024). 20. Machine LearningBased Solution fortheDetectionof MaliciousJPEGImages [Электронный ресурс]. 2020. Режим доступа: https://ieeexplore.ieee.org/document/8967109/metrics#metrics. Дата доступа: 11.11.2024. 21. Петифорова Д. Е., Штепа К. А. Анализ использования перцептивного хеширования в процессе идентификации изображений // Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем. 2021. С. 274-277. 22. Мягких П. А., Ядута А. З. Сравнение изображений с использованием перцептивных хешей // Фундаментальные и прикладные исследования в науке и образовании. 2023. С. 72-76. 23. Валишин А. А., Запривода А. В., Цухло С. С. Моделирование и сравнительный анализ эффективности перцептивных хеш-функций для поиска сегментированных изображений // Математическое моделирование и численные методы. 2024. №. 2 (42). С. 46-67. 24. Никифоров М. Б., Тарасова В. Ю. Алгоритм обнаружения визуального сходства изображений // Цифровая обработка сигналов. 2022. № 3. С. 53-57. 25. Детков А. А. и др. Сравнительный анализ метрик векторного расстояния растровых изображений // Вестник кибернетики. 2024. Т. 23. № 3. С. 22-30. 26. Трефилов П. А. Хранение и поиск схожих изображений в темпоральных базах данных с использованием перцептивных хэш-строк // Труды Международного симпозиума «Надежность и качество». 2020. Т. 1. С. 192-196. References
1. Romashkova, O. N., & Kapterev, A. I. (2023). Analysis of threats and risks of information security in the university. Bulletin of the Moscow City Pedagogical University. Series: Computer science and informatization of education, 1(63), 37-47.
2. Turyanskaya, K. A. (2024). Methods, models and tools for detecting, identifying and classifying threats to the information security of objects of various types and classes. International Journal of Humanities and Natural Sciences, 2-2(89), 151-155. 3. Boyarchuk, D. A., Frolov, K. A., & Sklyaruk, V. L. (2022). Threats to information security of cloud technologies. Modern problems of radio electronics and telecommunications, 5, 207. 4. Mustafaev, A. G., Kobzarenko, D. N., & Buchaev, A. Ya. (2021). Digital transformation of the economy: threats to information security. Beneficium, 2(39), 21-26. 5. Emelianov, A. A. (2022). Ensuring information security when using virtualization tools based on hypervisors. Regional informatics (RI-2022). Anniversary XVIII St. Petersburg. 6. Barybina, A. Z. (2022). Modeling information security threats using a scenario approach. Research in Natural Sciences and Humanities, 42(4), 35-44. 7. Grin', V. S. (2021). Analysis of information security threats and information leakage channels. StudNet, 4(7), 1616-1620. 8. Bekmukhan, A., & Usatova, O. (2024). Security optimization in multi-server web systems: effective risk management. Bulletin of KazATK, 133(4), 296-307. 9. Fact-checking and verification: a tutorial. L.P. Shesterkina, A.V. Krasavina, E.M. Khakimova. (2021). Chelyabinsk: Publishing center of SUSU. 10. Alpatov, A. N. (2023). Features of detecting deep genesis anomalies in a video stream. Systemic transformation is the basis for sustainable innovative development. 11. Application of neural networks for pattern recognition. (2023). E. M. Pavlov, A. V. Ryzhov, K. S. Balanev, I. M. Krepkov. Bulletin of Science and Practice, 12, 52-58. doi:10.33619/2414-2948/97/06 12. Lazarev, E. A. (2023). Application of computer vision and image processing using neural networks. Bulletin of Science, 12-1(69), 412-415. 13. Pilkevich, S. V. et al. (2023). Demonstrator of a Software and Hardware Tool for Automated Recognition of Malicious Multimedia Objects on the Internet (Research Results) // Bulletin of the Russian New University. Series: Complex Systems: Models, Analysis and Management, 2, 157-175. 14. Esipov, D. A. et al. (2023). Attacks Based on Malicious Perturbations on Image Processing Systems and Methods of Protection Against Them. Scientific and Technical Bulletin of Information Technologies, Mechanics and Optics, 23(4) 720-733. 15. Panchekhin, N. I., Desyatov, A. G., & Sidorkin, A. D. (2023). Malware Recognition System Based on Representation of a Binary File as an Image Using Machine Learning. Polytechnic Youth Journal, 04, 1-10. doi:10.18698/2541-8009-2023-4-886 16. Basarab, M. A., & Konnova, N. S. (2017). Intelligent Technologies Based on Artificial Neural Networks. Moscow, Bauman Moscow State Technical University. 17. Random Forest for Malware Classification. (2023). Retrieved from https://arxiv.org/abs/1609.07770 18. Xu, L., Zhang, D., Jayasena, N., & Cavazos, J. (2018). HADM: Hybrid Analysis for Detection of Malware. Proceedings of SAI Intelligent Systems Conference. Retrieved from http://doi.org/10.1007/978-3-319-56991-8_51 19. Towards Building an Intelligent Anti-Malware System: A Deep Learning Approach using Support Vector Machine (SVM) for Malware Classification. (2023). Retrieved from https://arxiv.org/abs/1801.00318 20. Machine LearningBased Solution for the Detectionof MaliciousJPEGImages [Electronic resource]. (2020). Retrieved from https://ieeexplore.ieee.org/document/8967109/metrics#metrics 21. Petiforova, D. E., & Shtepa, K. A. (2021). Analysis of the use of perceptual hashing in the process of image identification. Information and telecommunication technologies and mathematical modeling of high-tech systems, 274-277. 22. Myagkikh, P. A., & Yaduta, A. Z. (2023). Comparison of images using perceptual hashes. Fundamental and applied research in science and education, 72-76. 23. Valishin, A. A., Zaprivoda, A. V., & Tsukhlo, S. S. (2024). Modeling and comparative analysis of the efficiency of perceptual hash functions for searching for segmented images. Mathematical Modeling and Numerical Methods, 2(42), 46-67. 24. Nikiforov, M. B., & Tarasova, V. Yu. (2022). Algorithm for detecting visual similarity of images. Digital Signal Processing, 3, 53-57. 25. Detkov, A. A. et al. (2024). Comparative analysis of vector distance metrics of raster images. Bulletin of Cybernetics, 23(3), 22-30. 26. Trefilov, P. A. (2020). Storage and search of similar images in temporal databases using perceptual hash strings. Proceedings of the International Symposium "Reliability and Quality", 1, 192-196.
Результаты процедуры рецензирования статьи
В связи с политикой двойного слепого рецензирования личность рецензента не раскрывается.
Методология исследования базируется на обобщении сведений из научных публикаций по рассматриваемой теме, применении различных методов хеширования изображений (перцептивного и классификационного хеширования), вычисление хешей с применением методов расстояния Хэмминга и косинусного сходства. Актуальность работы авторы связывают с необходимостью противостоять потенциальным угрозам информационной безопасности в виде вредоносных изображений, содержащих вредоносный код или скрипты, фальсифицированных изображений информации и др. Для этого предлагается использовать программно-технические решения, включающие алгоритмы машинного обучения и методы анализа данных, для эффективной идентификации потенциально опасных мультимедийных объектов. Научная новизна рецензируемого исследования, по мнению рецензента, состоит в подтверждении возможности применения предложенных алгоритмов в задачах, связанных как с обработкой изображений, так и с анализом аудиосигналов, для более широкого использования технологий перцептивного хэширования в различных областях. Структурно в тексте выделены следующие разделы: Введение, Методы исследования, Заключение и Библиография. В публикации проведен анализ возможностей нескольких существующих систем поиска похожих изображений, таких как Яндекс Картинки, Google Images, Duplicate Photo Finder, VisiPics, их области применения и алгоритмов. Проведено сравнение существующих подходов к выявлению похожих изображений: сравнение значений пикселей изображений на одинаковых позициях, гистограммы изображений в виде анализа распределения яркости или цветовых характеристик изображения и формирования соответствующих гистограмм, использование свёрточных нейронных сетей, перцептивные хэши основанные на вычислении хэш-суммы изображения, которая учитывает его содержание. В результате сравнения перцептивных хэш-алгоритмов отмечен алгоритм хэширования на основе дискретного косинусного преобразования как самый точный и устойчивый к модификациям изображений. Разработанный алгоритм продемонстрировал свою эффективность и в выявлении дубликатов аудиозаписей. Библиографический список включает 26 источников – публикации отечественных и зарубежных ученых по теме статьи на русском и иностранном языках, а также интернет-ресурсы. На источники в тексте имеются адресные ссылки, подтверждающие наличие апелляции к оппонентам. Из резервов улучшения публикации надо отметить, что вводная часть публикации выглядит чрезмерно объемной – авторам предлагается рассмотреть возможность выделения из Введения самостоятельного раздела в виде Обзора литературы, а также озаглавить Основную часть статьи или сформировать разделы Результаты исследования и Осуждение результатов. Статья отражает результаты проведенного авторами исследования, соответствует направлению журнала «Национальная безопасность / nota bene», содержит элементы научной новизны и практической значимости, может вызвать интерес у читателей, рекомендуется к опубликованию после улучшения структурирования текста. |