ГАЗОРАСПРЕДЕЛЕНИЕ И ГАЗОСНАБЖЕНИЕ (GAS DISTRIBUTION AND GAS SUPPLY)

ПРИМЕНЕНИЕ МЕТОДОВ СТАТИСТИЧЕСКОГО АНАЛИЗА И МАШИННОГО ОБУЧЕНИЯ ДЛЯ ПОИСКА АНОМАЛИЙ ВО ВРЕМЕННЫХ РЯДАХ ЗАМЕРОВ ПАРАМЕТРОВ РАБОТЫ СИСТЕМ ГАЗОСНАБЖЕНИЯ

(STATISTICAL ANALYSIS AND MACHINE LEARNING METHODS IN TIME SERIES DATA ANOMALY DETECTION IN GAS SUPPLY SYSTEMS)

Анализ временн х рядов в целях обнаружения аномалий – наблюдений, выделяющихся среди данных временного ряда, – важный этап построения и использования цифровых моделей.
Под аномалиями подразумеваются выбросы или ошибочные данные, а также значения, которые могут отражать резкое изменение поведения моделируемых объектов. Детекция аномалий во временных рядах позволяет обнаружить неисправность работы датчиков, ошибки ввода данных оператором, аппаратные искажения и сбои, изменение режима работы оборудования и другие подобные события. Предварительная очистка данных от выбросов, обработка аномальных и восстановление пропущенных значений в данных необходимы для применения методов машинного обучения и построения качественных моделей прогнозирования.
В зависимости от исследуемого временного ряда применяются различные подходы к поиску аномалий. Одни из них связаны с использованием методов статистического анализа, другие основаны на моделях прогнозирования поведения временных рядов или аппроксимации данных всего ряда. Также для выявления аномалий применяются методы машинного обучения.
В настоящее время разработано множество методов поиска аномалий в данных, бóльшая часть которых реализована в открытых программных пакетах. Однако не существует универсального, хорошо работающего для любого временного ряда, метода выявления аномалий. Его выбор требует привлечения эксперта, так как качество получаемых результатов во многом зависит от вида детектируемых аномалий.
В работе систематизирована информация об аномалиях, предложены классификация методов их выявления и подходы к обработке во временных рядах. Приведены результаты апробации различных методов выявления аномалий на примере данных по содержанию метана в газе, поступающем с месторождения, и по газопотреблению в одном из регионов России.

Time series analysis detects anomalies – measurements standing out among the time series data. It is an important step in building and using digital models. Anomalies include outliers, erroneous data, and values that may show an abrupt change in the behaviors of modeled objects. Anomaly detection in time series allows for identifying a sensor malfunction, operator data entry errors, hardware distortions and failures, a change in the equipment operation mode, and more. Using machine learning methods and building qualitative models requires data pre-cleaning from outliers, processing anomalous values, and reconstructing missing ones.
Anomaly detection employs different approaches depending on the time series in question. Some approaches involve statistical analysis methods, while others are based on time series forecasting models or data extrapolation. Machine learning methods are also used to identify anomalies. Many data anomaly detection methods have been developed to date, most of them being implemented in open software packages. However, there is no universal anomaly detection method to work well for any time series. Method selection requires expert involvement as the quality of results significantly depends on the type of anomalies.
This paper systematizes the information about anomalies and proposes a classification for anomaly detection methods and approaches to anomaly processing in time series. It also shows test results for various methods exemplified by data on methane content in gas coming from the field and gas consumption data in a Russian region.

МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ, МЕТОДЫ СТАТИСТИЧЕСКОГО АНАЛИЗА, ПРОГНОЗИРОВАНИЕ, АНОМАЛИЯ, ВРЕМЕННОЙ РЯД

MACHINE LEARNING METHODS, STATISTICAL ANALYSIS METHODS, FORECASTING, ANOMALY, TIME SERIES

Е.А. Песня, ООО «НИИгазэкономика» (Москва, Россия), E.Pesnya@econom.gazprom.ru

А.В. Арзуманова, ООО «НИИгазэкономика», A.Arzumanova@econom.gazprom.ru

И.А. Пятышев, к.ф.-м.н., ООО «НИИгазэкономика», I.Pyatyshev@econom.gazprom.ru

Д.В. Горлов, ООО «НИИгазэкономика», D.Gorlov@econom.gazprom.ru

А.В. Белинский, к.т.н., ООО «НИИгазэкономика», A.Belinsky@econom.gazprom.ru

Ye.A. Pesnya, NIIGazekonomika LLC (Moscow, Russia), E.Pesnya@econom.gazprom.ru

A.V. Arzumanova, NIIgazekonomika LLC, A.Arzumanova@econom.gazprom.ru

I.A. Pyatyshev, PhD in Physics and Mathematics, NIIgazekonomika LLC, I.Pyatyshev@econom.gazprom.ru

D.V. Gorlov, NIIgazekonomika LLC, D.Gorlov@econom.gazprom.ru

A.V. Belinsky, PhD in Engineering, NIIgazekonomika LLC, A.Belinsky@econom.gazprom.ru

Geiger A., Liu D., Alnegheimish S., et al. TadGAN: Time series anomaly detection using generative adversarial networks // Proceedings of the IEEE International Conference on Big Data. New York, NY, USA: IEEE, 2020. P. 33–43. DOI: 10.1109/BigData50022.2020.9378139.

Detector // Arundo Analytics, Inc.: офиц. сайт. URL: https://adtk.readthedocs.io/en/stable/notebooks/demo.html (дата обращения: 03.10.2023).

Quick Start // Prophet: онлайн-библиотека. URL: https://facebook.github.io/prophet/docs/quick_start.html (дата обращения: 03.10.2023).

Taylor S.J., Letham B. Forecasting at scale // The American Statistician. 2018. Vol. 72, No. 1. P. 37–45. DOI: 10.1080/00031305.2017.1380080.

Chandola V., Banerjee A., Kumar V. Anomaly detection: A survey // ACM Computing Surveys. 2009. Vol. 41, No. 3. P. 1–58. DOI: 10.1145/1541880.1541882.

Шкодырев В.П., Ягафаров К.И., Баштовенко В.А., Ильина Е.Э. Обзор методов обнаружения аномалий в потоках данных // Proceedings of the Second Conference on Software Engineering and Information Management / ed. by G. Chernishev et al. СПб.: Цифровая фабрика «Быстрый цвет», 2017. Т. 1864. С. 50–55.

Фило В.Ф. Теоретический минимум по Computer Science. Все, что нужно программисту и разработчику / пер. с англ. А.В. Логунова. СПб.: Питер, 2018. 224 с.

Sharma R. STL decomposition: How to do it from Scratch // Towards Data Science Inc.: офиц. сайт. URL: https://www.towardsdatascience.com/stldecomposition-how-to-do-it-from-scratch-b686711986ec (дата обращения: 03.10.2023).

Мюллер А., Гвидо С. Введение в машинное обучение с помощью Python / пер. с англ. А. Груздева. М.: Вильямс, 2017. 393 с.

von Luxburg U. A tutorial on spectral clustering // Statistics and Computing. 2007. Vol. 17, No. 4. P. 395–416. DOI: 10.1007/s11222-007-9033-z.

Widmann M., Heine M. How to detect outliers. Top techniques and methods // KNIME Blog: сайт. URL: https://www.knime.com/blog/fourtechniques-for-outlier-detection (дата обращения: 03.10.2023).

Low S. Part. 1: The matrix profile // Towards Data Science Inc.: офиц. сайт. URL: https://towardsdatascience.com/the-matrix-profile-e4a679269692 (дата обращения: 03.10.2023).

Сарданашвили С.А. Расчетные методы и алгоритмы (трубопроводный транспорт газа). М.: РГУ нефти и газа им. И.М. Губкина, 2005. 577 с.

Шолле Ф. Глубокое обучение на Python / пер. с англ. А. Киселева. СПб.: Питер, 2018. 400 с.

Geiger A, Liu D, Alnegheimish S, Cuesta-Infante A, Veeramachaneni K. TadGAN: Time series anomaly detection using generative adversarial networks. In: IEEE Proceedings of the IEEE International Conference on Big Data, 10–13 December 2020, Atlanta, GA, USA. New York, NY, USA: IEEE; 2020. p. 33–43. https://doi.org/10.1109/BigData50022.2020.9378139.

Arundo Analytics, Inc. Detector. Available from: https://adtk.readthedocs.io/en/stable/notebooks/demo.html [Accessed: 3 October 2023].

Facebook. Prophet. Quick Start. Available from: https://facebook.github.io/prophet/docs/quick_start.html [Accessed: 3 October 2023].

Taylor SJ, Letham B. Forecasting at scale. The American Statistician. 2018; 72 (1): 37–45. https://doi.org/10.1080/00031305.2017.1380080.

Chandola V, Banerjee A, Kumar V. Anomaly detection: A survey. ACM Computing Surveys. 2009; 41(3): 1–58. https://doi.org/10.1145/1541880.1541882.

Shkodyrev VP, Yagafarov KI, Bashtovenko VA, Ilyina EE. The overview of anomaly detection methods in data streams. In: Chernishev G, Akhin M, Novikov B, Itsykson V (eds.) Proceedings of the Second Conference on Software Engineering and Information Management, 21 April 2017, Saint Petersburg, Russia. Vol. 1864. Saint Petersburg: Quick Color [Bystryj cvet]; 2017. p. 50–55. (In Russian)

Filho WF. Computer Science Distilled. Learn the Art of Solving Computational Problems. Trans Logunov AV. Saint Petersburg: Piter; 2018. (In Russian)

Sharma R. STL decomposition: How to do it from scratch. Available from: https://towardsdatascience.com/stl-decomposition-how-to-do-it-fromscratch-b686711986ec [Accessed: 3 October 2023].

Muller AC, Guido S. Introduction to Machine Learning Using Python. Trans Gruzdev A. Moscow: Williams; 2017. (In Russian)

von Luxburg U. A tutorial on spectral clustering. Statistics and Computing. 2007; 17(4): 395–416. https://doi.org/10.1007/s11222-007-9033-z.

Widmann M, Heine M. How to detect outliers. Top techniques and methods. Available from: https://www.knime.com/blog/four-techniques-foroutlier-detection [Accessed: 3 October 2023].

Low S. Part 1: The matrix profile. Available from: https://towardsdatascience.com/the-matrix-profile-e4a679269692 [Accessed: 3 October 2023].

Sardanashvili SA. Computing Methods and Algorithms (Gas Pipeline Transportation). Moscow: Gubkin University; 2005. (In Russian)

Chollet F. Deep Learning with Python. Trans Kiselev A. Saint Petersburg: Piter; 2018. (In Russian)
NEFTEGAS.info

Внимание к деталям — от идеи
до воплощения! Только актуальная информация и свежие новости.

Контакты

108811, г. Москва, Киевское ш.,
Бизнес-парк «Румянцево», корп. Б,
подъезд 5, офис 506 Б

+7 (495) 240-54-57