Макарова И.Л., Игнатенко А.М., Копырин А.С. —
Обнаружение и интерпретация ошибочных данных при статистическом анализе потребления энергоресурсов.
// Программные системы и вычислительные методы. – 2021. – № 3.
– С. 40 - 51.
DOI: 10.7256/2454-0714.2021.3.36564
URL: https://e-notabene.ru/itmag/article_36564.html
Читать статью
Аннотация: Мониторинг и анализ потребления энергоресурсов в различных разрезах измерение различных параметров (показателей) во времени крайне важен для современной экономики. Данная работа посвящена исследованию и интерпретации аномалий набора данных по потреблению энергоресурсов (на примере потребления газа) в муниципальном образовании
Потребление газа имеет важное значение для социально-экономической сферы городов. Несанкционированные подключения являются основной причиной нетехнологических потерь ресурса. Традиционные методы проверки на предмет хищения неэффективны и отнимают много времени. Современные технологии анализа данных помогут выявить и интерпретировать аномалии потребления и, среди прочего, сформировать списки на проверку объектов на предмет несанкционированных подключений.
Основным вкладом нашего подхода было применение совокупности статистических методов, направленных на обработку и выявление аномалий на наборе данных по энергопотреблению муниципального образования. Следует отметить, что применение подобных технологий требует разработки эффективных алгоритмов, и внедрения автоматизации и алгоритмов машинного обучения. Этот новый взгляд на временные ряды облегчает обнаружение аномалий, оптимизацию принятия решений и т.д. Эти процессы могут быть автоматизированы. Представленная методология, проверенная на временных рядах, описывающих потребление газа, может быть использована для более широкого спектра задач. Исследование может быть объединено с методами обнаружения знаний и алгоритмами глубокого обучения.
Abstract: Monitoring and analysis of consumption of energy resources in various contexts, as well as measuring of parameters (indicators) in time are of utmost importance for the modern economy. This work is dedicated to examination and interpretation of the anomalies of collecting data on consumption of energy resources (on the example of gas consumption) in the municipal formation. Gas consumption is important for the socioeconomic sphere of cities. Unauthorized connections are the key reason for non-technological waste of the resource. The traditional methods of detection of stealing of gas are ineffective and time-consuming. The modern technologies of data analysis would allow detecting and interpreting the anomalies of consumption, as well as forming the lists for checking the objects for unauthorized connections. The author’s special contribution lies in application of the set of statistical methods aimed at processing and identification of anomalies in energy consumption of a municipal formation. It is worth noting that the use of such technologies requires the development of effective algorithms and implementation of automation and machine learning algorithms. The new perspective upon time-series data facilitates identification of anomalies, optimization of decision-making, etc. These processes can be automated. The presented methodology tested on time-series data that describes the consumption of gas can be used for a broader range of tasks. The research can be combined with the methods of knowledge discovery and deep learning algorithms.
Игнатенко А.М., Макарова И.Л., Копырин А.С. —
Методы подготовки данных к анализу слабоструктурированных временных рядов
// Программные системы и вычислительные методы. – 2019. – № 4.
– С. 87 - 94.
DOI: 10.7256/2454-0714.2019.4.31797
URL: https://e-notabene.ru/itmag/article_31797.html
Читать статью
Аннотация: Целью исследования является подготовка к анализу слабоструктурированных исходных данных, их анализ, изучение влияния «загрязнения» данных на результаты регрессионного анализа. Задача структурирования данных, подготовки их к качественному анализу является уникальной задачей для каждого конкретного набора исходных данных и не может быть решена с помощью общего алгоритма, всегда будет иметь свои особенности. Рассмотрены проблемы, которые могут вызывать трудности при работе (анализе, обработке, поиске) со слабоструктурированными данными. Приведены примеры слабоструктурированных данных и структурированных данных, которые применяются в процедурах подготовки данных к анализу. Рассмотрены и описаны данные алгоритмы подготовки слабоструктурированных данных к анализу. Проведены процедуры очистки и анализа на наборе данных. Построены четыре регрессионных модели и произведено их сравнение. В результате были сформулированы следующие выводы: Исключение из анализа разного рода подозрительных наблюдений может резко сократить объем совокупности и привести к необоснованному снижению вариации. При этом, такой подход будет совершенно неприемлем, если в результате из анализа будут исключены важные объекты наблюдений и нарушена целостность совокупности. Качество построенной модели может ухудшаться при наличии аномальных значений, но может и улучшаться за их счет.
Abstract: The aim of the study is to prepare for the analysis of poorly structured source data, their analysis, the study of the influence of data "pollution" on the results of regression analysis. The task of structuring data, preparing them for a qualitative analysis is a unique task for each specific set of source data and cannot be solved using a general algorithm, it will always have its own characteristics. The problems that may cause difficulties when working (analysis, processing, search) with poorly structured data are considered. Examples of poorly structured data and structured data that are used in the preparation of data for analysis are given. These algorithms for preparing weakly structured data for analysis are considered and described. The cleaning and analysis procedures on the data set were carried out. Four regression models were constructed and compared. As a result, the following conclusions were formulated: Exclusion from the analysis of various kinds of suspicious observations can drastically reduce the size of the population and lead to an unreasonable decrease in variation. At the same time, such an approach would be completely unacceptable if, as a result, important objects of observation are excluded from the analysis and the integrity of the population is violated. The quality of the constructed model may deteriorate in the presence of abnormal values, but may also improve due to them.