Библиотека
|
ваш профиль |
Программные системы и вычислительные методы
Правильная ссылка на статью:
Макарова И.Л., Игнатенко А.М., Копырин А.С.
Обнаружение и интерпретация ошибочных данных при статистическом анализе потребления энергоресурсов.
// Программные системы и вычислительные методы.
2021. № 3.
С. 40-51.
DOI: 10.7256/2454-0714.2021.3.36564 URL: https://nbpublish.com/library_read_article.php?id=36564
Обнаружение и интерпретация ошибочных данных при статистическом анализе потребления энергоресурсов.
DOI: 10.7256/2454-0714.2021.3.36564Дата направления статьи в редакцию: 01-10-2021Дата публикации: 24-11-2021Аннотация: Мониторинг и анализ потребления энергоресурсов в различных разрезах измерение различных параметров (показателей) во времени крайне важен для современной экономики. Данная работа посвящена исследованию и интерпретации аномалий набора данных по потреблению энергоресурсов (на примере потребления газа) в муниципальном образовании Потребление газа имеет важное значение для социально-экономической сферы городов. Несанкционированные подключения являются основной причиной нетехнологических потерь ресурса. Традиционные методы проверки на предмет хищения неэффективны и отнимают много времени. Современные технологии анализа данных помогут выявить и интерпретировать аномалии потребления и, среди прочего, сформировать списки на проверку объектов на предмет несанкционированных подключений. Основным вкладом нашего подхода было применение совокупности статистических методов, направленных на обработку и выявление аномалий на наборе данных по энергопотреблению муниципального образования. Следует отметить, что применение подобных технологий требует разработки эффективных алгоритмов, и внедрения автоматизации и алгоритмов машинного обучения. Этот новый взгляд на временные ряды облегчает обнаружение аномалий, оптимизацию принятия решений и т.д. Эти процессы могут быть автоматизированы. Представленная методология, проверенная на временных рядах, описывающих потребление газа, может быть использована для более широкого спектра задач. Исследование может быть объединено с методами обнаружения знаний и алгоритмами глубокого обучения. Ключевые слова: статистический анализ, поиск аномалий, энергопотребление, газопотребление, муниципальное образование, сглаживание, среднее значение, несанкционированное потребление, учет газа, оптимизацияИсследование выполнено при финансовой поддержке РФФИ в рамках научного проекта No 19-01-00370. Abstract: Monitoring and analysis of consumption of energy resources in various contexts, as well as measuring of parameters (indicators) in time are of utmost importance for the modern economy. This work is dedicated to examination and interpretation of the anomalies of collecting data on consumption of energy resources (on the example of gas consumption) in the municipal formation. Gas consumption is important for the socioeconomic sphere of cities. Unauthorized connections are the key reason for non-technological waste of the resource. The traditional methods of detection of stealing of gas are ineffective and time-consuming. The modern technologies of data analysis would allow detecting and interpreting the anomalies of consumption, as well as forming the lists for checking the objects for unauthorized connections. The author’s special contribution lies in application of the set of statistical methods aimed at processing and identification of anomalies in energy consumption of a municipal formation. It is worth noting that the use of such technologies requires the development of effective algorithms and implementation of automation and machine learning algorithms. The new perspective upon time-series data facilitates identification of anomalies, optimization of decision-making, etc. These processes can be automated. The presented methodology tested on time-series data that describes the consumption of gas can be used for a broader range of tasks. The research can be combined with the methods of knowledge discovery and deep learning algorithms. Keywords: statistical analysis, search for anomalies, energy consumption, gas consumption, municipality, smoothing, average, unauthorized consumption, gas accounting, optimizationВведение Мониторинг и анализ потребления энергоресурсов в различных разрезах измерение различных параметров (показателей) во времени крайне важен для современной экономики. Собранные банки данных можно представить в виде временных рядов, которые нуждаются в исследовании для получения характерных признаков, коррелирующих с исследуемыми свойствами. Для решения подобного класса задач в литературе были предложены различные методы, которые имеют применение в широком спектре предметных областей, например, в медицине [1, 2], энергопотреблении [3, 4] и т.д. В целом рассматриваются три класса задач обработки полученных временных рядов: обнаружение аномалий, получение паттернов поведения (извлечение поведенческих признаков) и прогнозирование будущего поведения. Во многих приложениях целесообразно выполнять аддитивную или мультипликативную декомпозицию временных рядов. Например, сезонные и трендовые компоненты получены в работе [5]. Обычно анализ временных рядов выполняется во временной, частотной и амплитудной областях. Более того, он может быть одномерным или многомерным (включая корреляции с другими временными рядами). Как правило, анализ временных рядов фокусируется на отслеживании аномалий и оценке свойств устросистемы которые могут быть использованы для последующей оптимизации. Данная работа посвящена исследованию и интерпретации аномалий набора данных по потреблению энергоресурсов (на примере потребления газа) в муниципальном образовании Потребление газа имеет важное значение для социально-экономической сферы городов. Несанкционированные подключения являются основной причиной нетехнологических потерь ресурса. В течение длительного времени незаконное хищение газа не было искоренено и, не только наносит огромный экономический ущерб, но и влияет на надежность энергобаланса муниципалитетов. Традиционные методы проверки на предмет хищения неэффективны и отнимают много времени. Современные технологии анализа данных помогут выявить и интерпретировать аномалии потребления и, среди прочего, сформировать списки на проверку объектов на предмет несанкционированных подключений. Материалы и методы Описание данных Исходные данные представлены в виде таблицы в Excel. При подготовке набора данных использовались методы из работы [6] Они имеют следующее содержание и обозначение: - месяц проведения измерения - DT; - идентификационный номер пользователя - ID; - количество газовых плит - PG; - количество водонагревательных колонок - BPG; - количество приборов отопления - OT; - количество приборов учета - PU; - количество проживающих - PR; - площадь помещения - S; - объём потребляемого газа – V. Месяц проведения измерения – DT – содержит стандартное обозначение даты: число, месяц, год. Данные охватывают период, состоящий из 22 последовательных месяцев наблюдений, однако, не все пользователи имеют полный набор таких данных. Другими словами, есть пользователи, которые имеют, например, только три или четыре месяца наблюдений. Это необходимо учитывать при дальнейшем анализе данных. Идентификационный номер пользователя – ID – целые числа в диапазоне от 1 до 16000. Будем считать, что при записи идентификационного номера ошибки не совершаются. Количество газовых плит – PG - целые числа. В нашем наборе эта величина принимает значения в диапазоне от 0 до 16. Следует отметить, что имеется норматив установки газовых плит в помещении. Опуская подробности, будем считать, что для установки газовой плиты необходима минимальная площадь помещения, например, не менее 4 м2. Таким образом, если на площади 20 м2 размещено 6 газовых плит, будем считать это ошибочными данными. Количество водонагревательных колонок – BPG – целые числа в диапазоне от 0 до 6. Для размещения водонагревательных колонок также существуют нормативные требования. Общая площадь помещения для установки такой колонки должна быть не менее 12 м2. Значит, если в нашем наборе встретится запись с 2 колонками на площади 20 м2, будем считать это ошибкой в данных. Количество приборов отопления – OT - целые числа в диапазоне от 0 до 5.
Количество приборов учета – PU - целые числа в диапазоне от 1 до 2. Количество проживающих – PR - целые числа в диапазоне от 0 до 90. Надо помнить, что если в помещении никто не зарегистрирован, т.е. PR=0 то при расчете коммунальных услуг будет считаться PR=1 [7]. Площадь помещения – S - целые числа в диапазоне от 0 до 4000. Ошибочным будет считаться значение S=0, т.к. при отсутствии площади на неё нельзя разместить никакие приборы, тем более её отапливать. Объём потребляемого газа – V - целые числа. В имеющемся наборе данных эти значения изменяются в диапазоне от -1000 до 100000. Естественно, что отрицательные и «слишком» большие значения требуют пояснения. Можно предположить, что отрицательные значения могут появиться в показаниях тогда, когда в предыдущие моменты наблюдался перерасход. «Слишком» большие значения получаются в том случае, когда показания долгое время отсутствовали, а потом выставлялись суммарно за несколько периодов. Будем считать ошибочными или аномальными значения V, которые превышают суммарное годовое потребление газа или являются отрицательными при том, что предыдущие показания были меньше нормативного потребления.
Алгоритм подготовки данных к анализу 1. Для каждого ID проверить равенство S=0 по всем наблюдениям. Если по всем наблюдениям, переходим к следующему пункту. Если S=0 для некоторого наблюдения, а в других случаях имеет ненулевое значение, то заменить нулевое значение S ненулевым и перейти к следующему пункту. Если S=0 для всех наблюдений, то фиксируется ошибка в данных и все наблюдения для этого ID исключаются из дальнейшего рассмотрения. 2. Для каждого ID по всем наблюдениям проверяется значение PR. Если PR=0, то это значение заменяется на PR=1. 3. Для каждого ID по всем наблюдениям проверяется значение PG, которое, во-первых, должно быть целым неотрицательным числом и, во-вторых, не должно превышать установленный норматив для соответствующего значения площади S. Если требования выполняются, то переходим к следующему пункту. Если норматив превышен, то фиксируется ошибка в данных, но наблюдения не исключаются из дальнейшего анализа. 4. Аналогично для каждого ID по всем наблюдениям проверяется значение BPG, которое также должно быть целым неотрицательным числом и не превышающим установленный норматив для соответствующего значения площади S. Если требования выполняются, то переходим к следующему пункту. Если норматив превышен, то фиксируется ошибка в данных, но наблюдения не исключаются из дальнейшего анализа. 5. Значения показателей OT и PU также могут быть проверены на соответствие нормативным значениям, но в нашем исследовании такая проверка не проводилась. 6. Рассчитываются нормативные значения потребления газа для каждого ID и каждого наблюдения, а также суммарное годовое потребление газа для данного ID. С 1 октября по 30 апреля нормативное потребление газа рассчитывается по следующей формуле [7-9]: а с 1 мая по 30 сентября не учитывается отопление, поэтому: 7. Проводится проверка адекватности наблюдаемых значений V. Если значение V неотрицательно и не превышает нормативного значения, то переходим к следующему пункту. Если значение V отрицательно, а предыдущие значения не превышают нормативного значения, то фиксируется ошибка в данных и наблюдения исключаются из дальнейшего рассмотрения. Если значение V отрицательно, а предыдущие значения превышают нормативные значения, то проводится процедура сглаживания данных перед проведением статистического анализа. Если значение V не существенно превышает нормативное значение, а предыдущие значения были меньше нормативного значения, то проводится процедура сглаживания данных. Если значение V существенно превышает нормативное значение, а предыдущие значения не требуют корректировки, то фиксируется ошибка в данных и наблюдения исключаются из дальнейшего рассмотрения. Существенным превышением нормативного значения можно, будем считать превышение суммарного нормативного годового значения потребления газа. 8. Для всех ID, требующих проведения сглаживания данных, такая процедура проводится. 9. Формируются определенные массивы данных для проведения статистического анализа данных по всем наблюдениям в целом или для конкретного месяца. 10. 10. Проводится стандартный статистический анализ данных. Результаты и обсуждение Процедура сглаживания данных 1. 1. Для конкретного ID выбирается весь набор наблюдений. 2. Если имеются значения V<0, то проверяется наличие предыдущих превышающих нормативные значения показаний V. Если таких нет, то фиксируется ошибка в данных. Данное наблюдение для этого ID исключается из дальнейшего рассмотрения. Если предыдущее значение превышает норматив, то эти показания складываются и распределяются по месяцам следующим образом: для одинаковых по нормативной оплате месяцам берётся среднее арифметическое, а для различных – определяется в процентном отношении. Например, суммарно за 7 месяцев с отоплением по нормативу объём составляет 4229, а по остальным 5 месяцам, соответственно, 418, то процентное соотношение составит 91:9. Если в результате такого сглаживания оказываются отрицательные показания, то процедура по аналогии охватывает больший диапазон значений. Если отрицательные значения не удается исключить, то фиксируется ошибка в данных, данное наблюдение исключается из рассмотрения. 3. Если имеются значения V, превышающие суммарное годовое нормативное потребление газа, а предыдущие значения были меньше нормативного, то определяются все такие показания и суммируются. Сумма распределяется аналогично предыдущему пункту. 4. Если имеются значения V, превышающие нормативное потребления, но не превышающие суммарное годовое нормативное потребление газа, то при наличии предыдущих малых показаниях проводится перераспределение значений в соответствии с п.2. Результаты обработки набора данных Исходный набор данных содержал 1048576 наблюдений (56156 пользователей), представленных таблицей Excel (Таблица 1). Таблица 1. Выборка из набора данных
Следуя алгоритму подготовки данных к анализу, были исключены наблюдения с нулевой площадью, это привело к исключению 9497 пользователей. Нулевое количество проживающих обнаружено у 207 пользователей, и было заменено на 1. Ошибочные значения PG и BPG, были обнаружены, соответственно в 59239 и 57254 записях, что составило 5,77 % и 5,58 % от общего количества записей. В результате обработки данных значение объёма потребления V оказалось неотрицательным и не превышающим нормативного значения в 13236 записей ID пользователей, что составило 28,37%. Отрицательные значения объёма потребления V, вместе с предыдущими значениями, не превышающими нормативного значения, исключались из дальнейшего рассмотрения – 11266 записей ID пользователей, что составило 24,15%. При этом фиксировалась ошибка в данных. Не существенное превышение нормативного значения V, вместе с предыдущими значениями, которые были меньше нормативного значения, наблюдались в 19110 записях ID пользователей, что составило 40,96%. Для этих пользователей могла быть проведена процедура сглаживания данных. Существенное превышение нормативного значения V обнаружено в 3047 записях ID пользователей, что составило 6,52%. Некоторые результаты анализа проведённой обработки представлены в Таблице 2, а также на рис. 1-3. Таблица 2. Выборочные результаты анализа
Рис. 1. Среднее потребление небольших домовладений Из графического отображения данных расчетов видно (рис.1), что после очистки и проведения процедуры сглаживания данных средние значения объёма потребления газа выше. Однако противоположная тенденция видна на рисунке 2, где представлена гистограмма средних значений объёмов газа до и после проведения преобразований.
Рис.2. Среднее потребление средних домовладений
Рис.3. Среднее потребление больших домовладений При площади объекта потребления свыше 500 и до 1000 (рис.3), в среднем значении объема потребления газа нет четко выраженной тенденции или различий после проведения очистки и сглаживания. Работу сглаживания данных можно продемонстрировать на следующих двух примерах (таблица 3 и рис. 4 и 5). Таблица 3. Сглаживание данных
Рис.4. График сглаживаения объема в примере 1 Рис.5. График сглаживаения объема в примере 1 Исходя из представленного анализа можно сделать вывод, что аномалии на исследуемом наборе данных делятся на 3 типа: 1. Выбросы, связанные с ошибками сбора данных (отрицательная площадь, отсутствие проживающих и т.п.) 2. Выбросы, связанные с неравномерностью сбора данных (перенос объёмов потребления в следующие месяцы при непредставлении показаний приборов учёта) 3. Выбросы, выбивающиеся из тенденций кластера потребления. Именно последний класс аномалий и представляет значительный интерес в плане, формирование заданий на обход домовладений и выявлении нарушений учета газа. Причем следует отметить, что данные нарушения могут влиять на потребление в обе стороны: сокрытие приборов учета и проживающих вызывает повышение фиксируемого потребления, а несанкционированный учет – понижение. Заключение Основным вкладом нашего подхода было применение совокупности статистических методов, направленных на обработку и выявление аномалий на наборе данных по энергопотреблению муниципального образования. Следует отметить, что применение подобных технологий требует разработки эффективных алгоритмов, и внедрения автоматизации и алгоритмов машинного обучения. Этот новый взгляд на временные ряды облегчает обнаружение аномалий, оптимизацию принятия решений и т.д. Эти процессы могут быть автоматизированы. Представленная методология, проверенная на временных рядах, описывающих потребление газа, может быть использована для более широкого спектра задач. Представленное исследование может быть объединено с методами обнаружения знаний и алгоритмами глубокого обучения. Следует отметить, что наши экстраполяции учитывают только потребление при прочих равных условиях. Например, не учитываются изменения в поведении, предпочтениях потребителей и технологические измененияa при изменении климатических показателей (температуры и влажности воздуха) и внедрении технически более совершенных приборов, которые влияют на потребление энергии с течением времени.
Библиография
1. Chen H., Liu H. A remote electrocardiogram monitoring system with good swiftness and high reliablility //Computers & Electrical Engineering. – 2016. – Т. 53. – С. 191-202.
2. Katircioglu-Öztürk D. et al. A window-based time series feature extraction method //Computers in biology and medicine. – 2017. – Т. 89. – С. 466-486. 3. Kozłowski A., Sosnowski J. Energy efficiency trade-off between duty-cycling and wake-up radio techniques in IoT networks //Wireless Personal Communications. – 2019. – Т. 107. – №4 – С. 1951-1971. 4. Martinez B. et al. The power of models: Modeling power consumption for IoT devices //IEEE Sensors Journal. – 2015. – Т. 15. – №. 10. – С. 5777-5789. 5. Johnpaul C. I. et al. Trendlets: A novel probabilistic representational structures for clustering the time series data //Expert Systems with Applications. – 2020. – Т. 145. – С. 113119. 6. Игнатенко А.М., Макарова И.Л., Копырин А.С. — Методы подготовки данных к анализу слабоструктурированных временных рядов // Программные системы и вычислительные методы. – 2019. – № 4. – С. 87 - 94. DOI: 10.7256/2454-0714.2019.4.31797 7. Постановление Правительства РФ от 06.05.2011 N 354 (ред. от 31.07.2021) "О предоставлении коммунальных услуг собственникам и пользователям помещений в многоквартирных домах и жилых домов" // www.consultant.ru 8. Приказ Минэнерго России от 30.12.2013 N 961 (ред. от 26.12.2014) "Об утверждении Правил учета газа" // www.consultant.ru 9. Приказ Региональной энергетической комиссии – департамента цен и тарифов Краснодарского края от 31.08.2012 №2/2012-нп «Об утверждении нормативов потребления коммунальных услуг в Краснодарском крае (при отсутствии приборов учета)» References
1. Chen H., Liu H. A remote electrocardiogram monitoring system with good swiftness and high reliablility //Computers & Electrical Engineering. – 2016. – T. 53. – S. 191-202.
2. Katircioglu-Öztürk D. et al. A window-based time series feature extraction method //Computers in biology and medicine. – 2017. – T. 89. – S. 466-486. 3. Kozłowski A., Sosnowski J. Energy efficiency trade-off between duty-cycling and wake-up radio techniques in IoT networks //Wireless Personal Communications. – 2019. – T. 107. – №4 – S. 1951-1971. 4. Martinez B. et al. The power of models: Modeling power consumption for IoT devices //IEEE Sensors Journal. – 2015. – T. 15. – №. 10. – S. 5777-5789. 5. Johnpaul C. I. et al. Trendlets: A novel probabilistic representational structures for clustering the time series data //Expert Systems with Applications. – 2020. – T. 145. – S. 113119. 6. Ignatenko A.M., Makarova I.L., Kopyrin A.S. — Metody podgotovki dannykh k analizu slabostrukturirovannykh vremennykh ryadov // Programmnye sistemy i vychislitel'nye metody. – 2019. – № 4. – S. 87 - 94. DOI: 10.7256/2454-0714.2019.4.31797 7. Postanovlenie Pravitel'stva RF ot 06.05.2011 N 354 (red. ot 31.07.2021) "O predostavlenii kommunal'nykh uslug sobstvennikam i pol'zovatelyam pomeshchenii v mnogokvartirnykh domakh i zhilykh domov" // www.consultant.ru 8. Prikaz Minenergo Rossii ot 30.12.2013 N 961 (red. ot 26.12.2014) "Ob utverzhdenii Pravil ucheta gaza" // www.consultant.ru 9. Prikaz Regional'noi energeticheskoi komissii – departamenta tsen i tarifov Krasnodarskogo kraya ot 31.08.2012 №2/2012-np «Ob utverzhdenii normativov potrebleniya kommunal'nykh uslug v Krasnodarskom krae (pri otsutstvii priborov ucheta)»
Результаты процедуры рецензирования статьи
В связи с политикой двойного слепого рецензирования личность рецензента не раскрывается.
Методология исследования основана на проверке с использованием статистических методов и информационных технологий обработки данных выдвинутой рабочей гипотезы о том, что современные технологии анализа данных помогут выявить и интерпретировать аномалии потребления и сформировать списки на проверку объектов на предмет несанкционированных подключений. Научная новизна представленного исследования, по мнению рецензента, заключается применении совокупности статистических методов, направленных на обработку и выявление аномалий на наборе данных по энергопотреблению муниципального образования, а также выводах о том, что применение подобных технологий требует разработки эффективных алгоритмов, внедрения автоматизации и алгоритмов машинного обучения. В структуре статьи выделены следующие разделы: Введение, Материалы и методы. Описание данных; Алгоритм подготовки данных к анализу; Результаты и обсуждение. Процедура сглаживания данных; Заключение; Библиография. Во введении отмечено важное значение потребления газа для социально-экономической сферы, указано, что несанкционированные подключения являются основной причиной нетехнологических потерь ресурса и выдвинуто предположение о том, аномалии потребления могут интерпретированы на основе проведения анализа данных для выявления несанкционированных подключений. Используемый автором алгоритм подготовки данных к анализу включает 10 пунктов, которые доступно изложены в тексте, а применяемая процедура сглаживания данных содержит четыре позиции. В результате расчетов на исследуемом наборе данных выделены 3 типа аномалий – выбросы, связанные с ошибками сбора данных, с неравномерностью сбора данных и выбросы, выбивающиеся из тенденций кластера потребления. К достоинствам рецензируемой статьи можно отнести стремление использовать наглядные средства представления информации, иллюстрацию материала графиками и диаграммами, представлением информации в таблицах. Библиография статьи включает 9 источников, среди которых публикации в зарубежных и отечественных периодических научных журналах за 2015-2020 годы, а также Постановления Правительства РФ, приказы Министерств и региональных комиссий. Рецензируемая статья не лишена недоработок. Во-первых, наименования структурных частей статьи не выделены, каким-либо образом, например, полужирным шрифтом или курсивом. Это затрудняет визуальное разграничение текста на разделы. Во-вторых, ни в одной из трех таблиц и ни на одном из пяти рисунков не приведены единицы измерения рассматриваемых показателей, что затрудняет восприятие информации. В-третьих, в статье указано, что «исходные данные представлены в виде таблицы в Excel», но не отмечено с использованием каких инструментальных средств проводился анализ данных. В-четвертых, оформление библиографического описания источника под номерами 3 и 4 нуждается в корректировке ввиду технической оплошности в разграничении их между собой. В-пятых, отсутствует нумерация приводимых формул. Рецензируемый материал подготовлен на актуальную тему, соответствует тематике журнала «Программные системы и вычислительные методы», содержит оригинальные подходы к решению поставленных в исследовании задач, может быть интересен широкому кругу читателей, интересующихся проблемами проведения анализа данных и совершенствования управления потребления газа на муниципальном уровне, содержит значимые для практики результаты и может быть рекомендован к опубликованию в журнале. |