Беликова М.Ю., Каранина С.Ю., Глебова А.В. —
Экспериментальное сравнение алгоритмов кластеризации в задаче группировки данных о грозовых разрядах
// Кибернетика и программирование. – 2018. – № 1.
– С. 15 - 26.
DOI: 10.25136/2644-5522.2018.1.25261
URL: https://e-notabene.ru/kp/article_25261.html
Читать статью
Аннотация: В данной статье представлены результаты экспериментального сравнения кластерного анализа данных о грозовых разрядах алгоритмами k-means, dbscan и иерархическими агломеративными алгоритмами, где для вычисления межкластерного расстояния используются методы ближайшего соседа, полной и средней связи и метод Уорда. Произведена оценка влияния нормировочных параметров на количество кластеров, определяемых рассматриваемыми алгоритмами на тестовой выборке. В качестве тестовой выборки были использованы данные о времени регистрации и координаты грозовых разрядов, зафиксированные Всемирной сетью локализации молний (World Wide Lightning Location Network, WWLLN). Построение группировочных решений выбранными алгоритмами кластеризации производились с помощью па-кетов кластерного анализа Nbclust, dbscan и fpc, разработанных на языке R. Показано, что выбор значений нормировочных параметров имеет существенное влияние на количество выделяемых кластеров из рассматриваемой выборки при использовании иерархических алгоритмов кластеризации (особенно для метода ближайшего соседа). Выбор нормировочных параметров практически не влияет или оказывает незначительное влияние на результаты кластеризации грозовых разрядов с помощью алгоритмов k-means и dbscan. Наилучшее согласование с экспертной оценкой получено для алгоритма dbscan при нормировочных параметрах соответствующих линейным размерам грозовой конвективной ячейки 100 км и времени существования от 30 минут до часа.
Abstract: The authors present the results of an experimental comparison of the cluster analysis of thunderstorm data using the algorithms of k-means, dbscan and hierarchical agglomerative algorithms, where closest neighbor, full and medium coupling methods and the Ward method are used to calculate the intercluster distance. The influence of the normalization parameters on the number of clusters determined by the algorithms under consideration on the test sample is estimated. Data on the time of registration and the coordinates of lightning discharges recorded by the World Wide Lightning Location Network (WWLLN) were used for test purposes. The construction of grouping solutions by the chosen clustering algorithms was carried out with the help of the Nbclust, dbscan, and fpc cluster analysis packages developed in the R language. The article showns that the choice of the values of the normalization parameters has a significant effect on the number of clusters allocated from the sample under consideration using hierarchical clustering algorithms (especially for method of the nearest neighbor). The choice of the normalizing parameters has practically no effect or has a negligible effect on the results of lightning cluster clustering using the k-means and dbscan algorithms. The best agreement with expert judgment was obtained for the dbscan algorithm with normalizing parameters corresponding to linear dimensions of a thunderstorm convective cell of 100 km and a period of time of 30 minutes to an hour.