Рус Eng Cn Перевести страницу на:  
Please select your language to translate the article


You can just close the window to don't translate
Библиотека
ваш профиль

Вернуться к содержанию

Кибернетика и программирование
Правильная ссылка на статью:

Анализ и устранение шумовой компоненты во временных рядах с переменным шагом

Скляр Александр Яковлевич

кандидат технических наук

доцент, кафедра прикладной математики, Российский технологический университет (МИРЭА)

119602, Россия, г. Москва, пр-т Вернадского, 78

Sklyar Alexander

PhD in Technical Science

Associate Professor, Department of Applied Mathematics, Russian University of Technology

119602, Russia, g. Moscow, pr-t Vernadskogo, 78

askliar@mail.ru
Другие публикации этого автора
 

 

DOI:

10.25136/2644-5522.2019.1.27031

Дата направления статьи в редакцию:

01-08-2018


Дата публикации:

04-03-2019


Аннотация: В статье рассматривается методика оценки шумовой компоненты во временных рядах с переменным шагом, ее обоснование и предлагается алгоритм удаления шума из данных. Анализ строится на основе требования гладкости функции, представляющей исходные данные и имеющей непрерывные производные до третьего порядка. Предлагаемая методика и алгоритмы оценки и устранения шума в данных в предположении о гладкости, представляемой ими функции, позволяют обоснованно определить как абсолютного, так и относительного шума в данных вне зависимости от равномерности шага измерений в исходных данных уровень шума в данных, удалить из данных шумовую компоненту. Алгоритм решения задачи основан на минимизации отклонений рассчитываемых значений от гладкой функции при условии соответствия отклонений от исходных данных уровню шума. Предлагаемая методика и алгоритмы оценки и устранения шума в данных в предположении о гладкости, представляемой ими функции, позволяют обоснованно определить как абсолютный, так и относительный шум в данных вне зависимости от равномерности шага измерений в исходных данных и их зашумленности, удалить из данных шумовую компоненту. Учитывая гладкость данных, получаемых в результате устранения шума, данные полученные удалением шума пригодны для выявления в них как аналитических, так и дифференциальных зависимостей


Ключевые слова:

абсолютный шум, относительный шум, цифровая фильтрация шума, временной ряд, тренд, декомпозиция данных, численное моделирование, анализ временного ряда, математическая модель, обработка статистики

Abstract: The article discusses the methodology for estimating the noise component in time series with variable pitch, its justification, and suggests an algorithm for removing noise from data. The analysis is based on the requirement of smoothness of a function representing the original data and having continuous derivatives up to the third order. The proposed method and algorithms for estimating and eliminating noise in the data under the assumption of smoothness, the function they represent, allow reasonably determining both absolute and relative noise in the data, regardless of the uniformity of the measurement step in the source data, the noise level in the data, remove the noise component from the data . The algorithm for solving the problem is based on minimizing the deviations of the calculated values from the smooth function, provided that the deviations from the source data correspond to the noise level. The proposed method and algorithms for estimating and eliminating noise in the data under the assumption of smoothness, the function they represent, allow reasonably determining both absolute and relative noise in the data, regardless of the uniformity of the measurement step in the source data and their noise, and remove the noise component from the data. Considering the smoothness of the data obtained as a result of noise elimination, the data obtained by noise elimination are suitable for detecting both analytical and differential dependencies in them.


Keywords:

absolute noise, relative noise, digital noise filtration, time series, trend, data decomposition, numerical simulation, time series analysis, mathematical model, statistics processing

1. Введение

Большое количество процессов происходящих в экономике, результатов экспериментальных исследований в различных областях можно описать в виде временных рядов или последовательностей данных. Элементами такого ряда являются пары, задающие момент наступления события (значение аргумента) и соответствующий ему результат (значение функции). Последовательность событий может измеряться как с постоянным, так и с переменным шагом. Значения, сопоставляемые элементам получающегося ряда, содержат и ошибки измерения и, в общем случае, подвержены случайным внешним воздействиям. В дальнейшем такого рода ошибки измерений и результаты внешних воздействий будем трактовать, как шум.

При анализе данных временного ряда и прогнозировании на его основе возникает множество задач, связанных с выделением трендовой, колебательной и составляющих [1,2.3,4]. Для выявления таких рядов используются различные методы в зависимости от характера данных [5,6,7,8]. В то же время анализ и обработка зашумленных данных вызывает значительные трудности. Возникает задача устранения, по возможности, такого шума. Для устранения такого шума используются различные методы сглаживания, такие как, методы скользящей средней, экспоненциального сглаживания и др. [9], в частности методы, связанные с добавлением белого шума и последующим устранением шумовой компоненты за счет его усреднения [10].

2. Оценка шумовой компоненты в исходных данных

Обозначим значения аргумента (временные отрезки) через xi, соответствующие им наблюдаемые значения через yi, предполагаемую функцию «истинной» зависимости – f(x). И исследуемый ряд представим в виде пар (xi , f(xi)). Будем рассматривать общий случай, когда исходные данные задаются с переменным шагом xi+1=xi+hi, где величины hi, вообще говоря, различны.

Наблюдаемые данные будем представлять в виде , где si – шум.

Пусть функцию f(x) имеет производные до 4 порядка включительно, тогда ее значение в точке x+t может быть представлено как

(1)

Рассмотрим значения функции в окрестности точки x0. Выберем точки xk=x0+tk, где k=0,1,2,3,4; t0=0 и все tk различны.

В матричном виде она примет вид.

AB=C

Где ; ;.

Индекс k принимает значения 1, 2, 3, 4.

Ранг матрицы A равен 3, следовательно, существует вектор , где не все λk равны 0 такой, что , тогда .

Значения λk определяются с точностью до постоянного множителя, в частности, положив λ4=1, получим допустимый набор из решения системы линейных уравнений

(2)

Определитель матрицы A

Аналогично

Поскольку вектор определен с точностью до произвольного множителя, то их удобнее представить в симметричном виде

(3)

В частности, решение этой системы для равноотстоящих узлов [11] t0=0, t1=-1, t2=1, t3=-2, t4=2 дает значения

Учитывая (2) получаем

(4)

Отметим, что выражение слева дает с точностью до множителя t4 численное представление четвертой производной и при функциях f(x), представимых в виде полиномов не выше третьей степени, тождественно обращается в 0.

Далее учтем, что f(xm+tk)=ym+k-sm+k и, следовательно

При отсутствии быстрых, то есть с периодами соизмеримыми с шагом ряда, осцилляций f(x) величину можно считать малой, и тогда получаем

(5)

Величина систематических отклонений от 0 будет тем меньше, чем меньше будет , то есть при выборе набора из пяти точек в качестве базовой точки x целесообразно выбирать точку x3. Перенумеруем точки и введем , тогда (5) примет вид

(6)

Правая часть равенства (6) представляет собой случайную величину. Пусть величины sm+k – независимые случайные величины с 0 математическим ожиданием и дисперсией σ2, тогда математическое ожидание .

Среднеквадратичное значение шума σ2, таким образом, можно оценить исходя из

(7)

3. Выделение в данных функциональной и шумовой компонент

В этих условиях можно определить значения шумовой компоненты s и, следовательно, f(x) исходя из

(8)

Перепишем (7) в матричных обозначениях. Для этого введем матрицу L=(lij), где , тогда

(9)

И условие минимума принимает вид

или

(10)

В отличие от случая с равноотстоящими узлами здесь возникает необходимость вычисления элементов матрицы L для каждой строки (при равноотстоящих узлах ненулевые элементы матрицы L одинаковы для всех строк). Система (9) из-за ограничения является нелинейной и нахождение ее решений даже при небольшой размерности встречает значительные вычислительные трудности. В то же время решение системы линейных алгебраических уравнений (СЛАУ) из (10) при заданном значении t не создает особых проблем. В самом деле, матрица является 9 диагональной ленточной матрицей и можно показать, что время решения СЛАУ с такой матрицей линейно по числу уравнений.

Отметим, что матрица является неотрицательно определенной и все ее собственные числа μi≥0.

Пусть Ei – собственные вектора матрицы, соответствующие собственным числам μi≥0,

Тогда первое из равенств (9) примет вид

В этих условиях представляет собой при t>0 монотонно убывающую функцию от t.

Заметим, что при t→0 минимум функции F(s) в (8) будет достигаться, как следует из (5), при . Последнее условие означает стремление 4-ой производной к 0, то есть исходная функция будет близка к полиному не выше 3 степени.

При t→∞ минимум F(s) будет достигаться, при si→0 и, следовательно, функция f(xi)→yi.

4. Алгоритм удаления шума и выделения функциональной компоненты в данных

Учитывая сделанные замечания о характере функции F(s) можно предложить следующий итеративный алгоритм.

1. Вычисляем оценку шума σ2 на основе (6). Задаем начальное значение t0.

2. Решаем СЛАУ в соответствии с (9) и вычисляем значение <s,s>.

3. Если <s,s> > σ2, переходим к пункту 4, иначе к пункту 5.

4. Решаем СЛАУ в соответствии с (9) с t=2t0 и вычисляем значение <s,s>. Если <s,s> >nσ2, устанавливаем t0=t и повторяем пункт 4. В противном случае устанавливаем t1=t и переходим к пункту 6.

5. Решаем СЛАУ в соответствии с (9) с t=t0/2 и вычисляем значение <s,s>. Если <s,s> <nσ2, устанавливаем t0=t и повторяем пункт 5. В противном случае устанавливаем t0=t, t1=t0 и переходим к пункту 6.

6. Искомое значение t лежит между t0 и t1. Решаем СЛАУ в соответствии с (9) с t= (t0 + t1)/2 и вычисляем значение <s,s>. Если |<s,s> -nσ2|<ε, то останавливаем процесс и на основе вычисленных значений si рассчитываем значения искомой функции f(xi)= yi-si. Если нет, то строим новый интервал, устанавливая в зависимости от выполнения неравенства <s,s> >nσ2 либо t0=t, либоt1=t и переходим к пункту 6.

Отметим, что говоря о шуме и его дисперсии в (6) и (7) предполагается, что он представляет собой одинаково распределенную случайную величину на всем временном ряде. Если это не так, то вместо абсолютной величины шума si в (5) шум удобнее представлять в виде si=φ(x,y)ui так, чтобы случайная величина ui была бы одинаково распределенной на всем временном ряде. Наиболее естественно предполагать при большом разбросе исходных данных, что шум является результатом измерений, которые имеют постоянной относительную погрешность. В этом случае естественно принять si=yiui, тогда (6) и (7) примут соответственно вид

(10)

(11)

Тогда дисперсия относительного шума u определяется из (11)

И задача (7) приобретает вид

(12)

Или в матричном виде

Тогда условие минимума принимает вид

или

Отдельно следует отметить, что предлагаемая схема исключает из выделения шума компоненты зависимостей до полиномов 3 степени включительно. Последнее может оказаться обременительным для сильно зашумленных данных. В этом случае для исключения шума удобнее использовать более грубую схему, исключающую из выделения шума компоненты зависимостей до полиномов только 2 степени.

(13)

В частности, решение этой системы для равноотстоящих узлов [11] t0=0, t1=-h, t2=h, t3=-2h, t4=2h дает значения

5. Результаты численного моделирования

На рисунке 1 представлены результаты обработки зашумленных данных.

Значения по осям x и y, где rnd представляет собой случайную величину, равномерно распределенную на интервале (-0,1;0,1).

Рисунок 1

На рисунке 2 представлены результаты обработки данных, представляющих значения функции y=ex на интервале (0;10) с шагом 0,1 округленные до двух значащих цифр.

Среднеквадратичная абсолютная погрешность исходных данных от теоретической кривой в рассматриваемом примере составляет 56, при удалении абсолютного шума - 30, при удалении относительного шума – 19. Таким образом, в случаях, когда данные меняются в широких пределах, а в данном случае отношение максимального значения к минимальному составляет 22000, удаление относительного шума приводит и к лучшему удалению абсолютного шума по сравнению с методом прямого удаления абсолютного шума.

Рисунок 2

6. Выводы

Таким образом, предлагаемая методика и алгоритмы выявления и устранения шума в данных в предположении о гладкости, представляемой ими функции, позволяют:

· обоснованно определить уровень как абсолютного, так и относительного шума в данных вне зависимости от равномерности шага измерений в исходных данных;

· удалить из данных шумовую компоненту;

· учитывая гладкость данных, получаемых в результате устранения шума, проводить анализ выделенных данных для выявления в них аналитических и дифференциальных зависимостей.

Библиография
1. Грешилов А.А., Стакун В.А., Стакун А.А. Математические методы построения прогнозов. М.: Радио и связь, 1997. 112 с.
2. Канторович Г.Г. Анализ временных рядов. Экономический журнал ВШЭ. №1 2002, №2 2002, №3 2002, №4 2002, №1 2003
3. Андерсон Т. Статистический анализ временных рядов. М: Мир, 1976. 523 с.
4. Афанасьев В.Н., Юзбашев М.М. Анализ временных рядов и прогнозирование. М.; Финансы и статистика,2001. — 228 с.
5. Губанов В.А. Выделение тренда из временных рядов макроэкономических показателей. В сб.: Научные труды: Институт народнохозяйственного прогнозирования РАН, 2005. — Т.3
6. Большаков А.А., Каримов Р.Н. Методы обработки многомерных данных и временных рядов. М.: Горячая линия-Телеком, 2007. — 522 с.
7. Ф.Александров, Н.Голяндина. Выбор параметров при автоматическом выделении трендовых и периодических составляющих временного ряда в рамках подхода «Гусеница»-SSA. Труды IV Международной конференции «Идентификация систем и задачи управления» SICPRO'05.
8. Дубовиков М. М., Старченко Н. В. О фрактальном анализе хаотических временных рядов. 2014 International Conference on Adaptive and Intelligent Systems - ICAIS'14.
9. Бокс Дж., Дженкинс Г. Анализ временных рядов. Прогноз и управление. Вып. 1. М.: Мир, 1974. 406 с.
10. Zhaohua wu and Norden E. Huang. ensemble empirical mode decomposition: A noise-assisted data analysis method. Advances in Adaptive Data AnalysisVol. 01, No. 01, pp. 1-41 (2009)
11. Скляр А.Я. Анализ и устранение шумовой компоненты во временных рядах. Успехи современной науки, №11, 2017 г. – 11с.
References
1. Greshilov A.A., Stakun V.A., Stakun A.A. Matematicheskie metody postroeniya prognozov. M.: Radio i svyaz', 1997. 112 s.
2. Kantorovich G.G. Analiz vremennykh ryadov. Ekonomicheskii zhurnal VShE. №1 2002, №2 2002, №3 2002, №4 2002, №1 2003
3. Anderson T. Statisticheskii analiz vremennykh ryadov. M: Mir, 1976. 523 s.
4. Afanas'ev V.N., Yuzbashev M.M. Analiz vremennykh ryadov i prognozirovanie. M.; Finansy i statistika,2001. — 228 s.
5. Gubanov V.A. Vydelenie trenda iz vremennykh ryadov makroekonomicheskikh pokazatelei. V sb.: Nauchnye trudy: Institut narodnokhozyaistvennogo prognozirovaniya RAN, 2005. — T.3
6. Bol'shakov A.A., Karimov R.N. Metody obrabotki mnogomernykh dannykh i vremennykh ryadov. M.: Goryachaya liniya-Telekom, 2007. — 522 s.
7. F.Aleksandrov, N.Golyandina. Vybor parametrov pri avtomaticheskom vydelenii trendovykh i periodicheskikh sostavlyayushchikh vremennogo ryada v ramkakh podkhoda «Gusenitsa»-SSA. Trudy IV Mezhdunarodnoi konferentsii «Identifikatsiya sistem i zadachi upravleniya» SICPRO'05.
8. Dubovikov M. M., Starchenko N. V. O fraktal'nom analize khaoticheskikh vremennykh ryadov. 2014 International Conference on Adaptive and Intelligent Systems - ICAIS'14.
9. Boks Dzh., Dzhenkins G. Analiz vremennykh ryadov. Prognoz i upravlenie. Vyp. 1. M.: Mir, 1974. 406 s.
10. Zhaohua wu and Norden E. Huang. ensemble empirical mode decomposition: A noise-assisted data analysis method. Advances in Adaptive Data AnalysisVol. 01, No. 01, pp. 1-41 (2009)
11. Sklyar A.Ya. Analiz i ustranenie shumovoi komponenty vo vremennykh ryadakh. Uspekhi sovremennoi nauki, №11, 2017 g. – 11s.

Результаты процедуры рецензирования статьи

В связи с политикой двойного слепого рецензирования личность рецензента не раскрывается.
Со списком рецензентов издательства можно ознакомиться здесь.

Предмет исследования – методика оценки шумовой компоненты во временных рядах с переменным шагом, а также удаления шума из данных (на основе требования гладкости функции, имеющей непрерывные производные до третьего порядка).

Методология исследования основана на функциональном подходе с применением методов анализа, алгоритмизации, численного моделирования.

Актуальность определяется широким распространением в различных областях современной науки, техники, экономики процессов, которые могут быть описаны в виде временных рядов, последовательностей данных, при обработке которых возникают задачи, связанные с анализом зашумлённых данных.

Научная новизна связана с разработкой и апробацией алгоритма выявления и устранения шума в данных в предположении о гладкости представляющей их функции.

Стиль изложения научный.

Структура рукописи включает следующие разделы: 1. Введение (временные ряды, выделение трендовой и колебательной составляющих, анализ и обработка зашумленных данных), 2. Оценка шумовой компоненты в исходных данных, 3. Выделение в данных функциональной и шумовой компонент, 4. Алгоритм удаления шума и выделения функциональной компоненты в данных, 5. Результаты численного моделирования, 6. Выводы (заключение), Библиография. Разделы 1. Введение, 6. Выводы можно не нумеровать.

Текст содержит два рисунка. Названия рисунков желательно указать под ними, например: Рисунок 1 – Обработка сильно зашумлённых данных.

Содержание в целом соответствует названию. Формулировку заголовка желательно конкретизировать с учётом того, что анализ строится на основе требования гладкости функции, представляющей исходные данные и имеющей непрерывные производные до третьего порядка.

Библиография включает 11 источников отечественных и зарубежных авторов – монографии, научные статьи, материалы научных мероприятий. Библиографические описания ряда источников (№№ 2, 5, 7–11) нуждаются в корректировке в соответствии с ГОСТ и требованиями редакции – следует указать место издания (для сборников), номера страниц начала и окончания статей и т.п.

Апелляция к оппонентам (Грешилов А.А., Стакун В.А., Стакун А.А., Канторович Г.Г., Андерсон Т., Афанасьев В.Н., Юзбашев М.М., Губанов В.А., Большаков А.А., Каримов Р.Н., Александров Ф., Голяндина Н., Дубовиков М. М., Старченко Н. В., Бокс Дж., Дженкинс Г., Zhaohua Wu, Norden E. Huang, Скляр А.Я.) имеет место. Вместе с тем практически все приведенные в библиографическом списке работы (10 ссылок) представлены в разделе «Введение», одна – в разделе «Оценка шумовой компоненты в исходных данных». Желательно обратиться к результатам, полученным иными авторами, и в остальных разделах рукописи (в частности, раздел 5).

Следует уточнить, какими программными средствами проводилось численное моделирование (раздел 5. Результаты численного моделирования).

Некоторые фрагменты нуждаются в редактировании, например: Предлагаемая методика и алгоритмы оценки и устранения шума в данных в предположении о гладкости, (УДАЛИТЬ ЗАПЯТУЮ) представляемой ими (ИЛИ ПРЕДСТАВЛЯЮЩЕЙ ИХ?) функции, (УДАЛИТЬ ЗАПЯТУЮ) позволяют обоснованно определить (ЧТО ОПРЕДЕЛИТЬ - ШУМА?) как абсолютного, так и относительного шума в данных вне зависимости от равномерности шага измерений в исходных данных уровень шума в данных (?), удалить из данных шумовую компоненту. Алгоритм решения задачи основан на минимизации отклонений рассчитываемых значений от гладкой функции при условии соответствия отклонений от исходных данных уровню шума. Предлагаемая методика и алгоритмы оценки и устранения шума в данных в предположении о гладкости, представляемой ими функции, позволяют обоснованно определить как абсолютный, так и относительный шум в данных вне зависимости от равномерности шага измерений в исходных данных и их зашумленности, удалить из данных шумовую компоненту (ПОВТОР ПРЕДЛОЖЕНИЯ, СМ. ВЫШЕ). Учитывая гладкость данных, получаемых в результате устранения шума, данные (ЗАПЯТАЯ) полученные удалением шума (ЗАПЯТАЯ) пригодны для выявления в них как аналитических, так и дифференциальных зависимостей. <…> При анализе данных временного ряда и прогнозировании на его основе возникает множество задач, связанных с выделением трендовой, (И?) колебательной и (УДАЛИТЬ?) составляющих [1,2.3,4]. ([1–4]).

Фразы, предшествующие формулам, следует завершать двоеточием.

В целом рукопись соответствует основным требованиям, предъявляемым к научным статьям. Материал представляет интерес для читательской аудитории и после доработки может быть опубликован в журнале «Кибернетика и программирование» (рубрика «Математическое моделирование и вычислительный эксперимент»).