Please use this identifier to cite or link to this item:
https://er.chdtu.edu.ua/handle/ChSTU/6735| Title: | Моделювання та прогнозування динаміки споживання природного газу в регіонах України |
| Authors: | Триус , Юрій Васильович ПЛЕМЕННИК, Ярослав Юрійович |
| Keywords: | ПРОГНОЗУВАННЯ ЧАСОВИХ РЯДІВ, ОПТИМІЗАЦІЯ, ГАЗОТРАНСПОРТНА СИСТЕМА, СПОЖИВАННЯ ПРИРОДНОГО ГАЗУ, МАШИННЕ НАВЧАННЯ, НЕЙРОННІ МЕРЕЖІ, ARIMAX, LSTM;TIME SERIES FORECASTING, OPTIMIZATION, GAS TRANSMISSION SYSTEM, NATURAL GAS CONSUMPTION, MACHINE LEARNING, NEURAL NETWORKS, ARIMAX, LSTM |
| Issue Date: | 18-Dec-2025 |
| Abstract: | Кваліфікаційна робота магістра присвячена моделюванню та прогнозуванню регіонально структурованого споживання природного газу в Україні на основі аналізу часових рядів. Актуальність дослідження зумовлена необхідністю точного прогнозування енергоспоживання в умовах воєнної нестабільності для забезпечення ефективного планування видобутку, транспортування, зберігання та мінімізації економічних ризиків. Об’єктом дослідження є процеси регіонального споживання природного газу за даними газотранспортної системи України, а предметом — статистичні та нейромережні моделі аналізу і прогнозування часових рядів.
У роботі реалізовано адаптивні моделі прогнозування на основі авторегресійних методів і глибоких нейронних мереж, виконано їх програмну реалізацію в середовищі Python та проведено експериментальне порівняння точності прогнозів. Показано, що поєднання статистичних і нейромережних підходів дозволяє підвищити якість прогнозування та зменшити обчислювальні витрати. Отримані результати мають практичне значення для оператора газотранспортної системи України та можуть використовуватися в задачах оперативного й стратегічного планування енергетичних ресурсів. The master’s thesis is devoted to modeling and forecasting regionally structured natural gas consumption in Ukraine based on time series analysis. The relevance of the study is determined by the need for accurate energy demand prediction under conditions of military and economic instability in order to support effective planning of gas production, transportation, storage, and risk mitigation. The object of the research is the process of regional gas consumption derived from the data of the Ukrainian gas transmission system, while the subject includes statistical and neural network models for time series analysis and forecasting. The work develops adaptive forecasting models using autoregressive techniques and deep neural networks, implements them in the Python environment, and performs an experimental comparison of their predictive accuracy. It is shown that the combination of statistical and neural approaches improves forecast quality and computational efficiency. The obtained results are of practical importance for the operator of the Ukrainian gas transmission system and can be applied to operational and strategic planning of energy resources. |
| URI: | https://er.chdtu.edu.ua/handle/ChSTU/6735 |
| Appears in Collections: | 112 Статистика (Аналіз даних (DATA SCIENCE) та комп'ютерна статистика) |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| ПЛЕМЕННИК Я.Ю. Кваліфікаційна робота магістра.pdf Restricted Access | 3.6 MB | Adobe PDF | View/Open Request a copy |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.
Extracted text
РЕФЕРАТ
Кваліфікаційна робота магістра містить: 85 с. основного тексту, 48 рис.,
39 використаних джерел, 3 додатки.
Актуальність теми.
Прогнозування часових рядів є однією з важливих і складних задач,
вирішення якої забезпечує одержання ключової інформації для ухвалення рішень у
різних сферах, таких як економічне планування, управління ланцюгами постачання
та медична діагностика.
Сучасні наукові публікації 2020-2025 років щодо прогнозування часових
рядів демонструють перехід від традиційних статистичних методів (ARIMA) до
глибокого навчання (LSTM, Transformer-архітектури), а також підкреслюють
фундаментальні проблеми, пов’язані з вирішенням цієї задачі: нестаціонарність
даних, різке збільшення їх обсягу, слабку інтерпретованість та неефективність
існуючих методів на довгих горизонтах.
Проведений аналіз публікацій свідчить про значний інтерес науковців і
практиків до задачі прогнозування часових рядів у різних галузях від економіки,
енергетики і транспорту до метеорології і медицини.
При цьому дослідження у цій сфері зосереджені як на традиційних моделях
прогнозування, так і на моделях, заснованих на глибокому навчання, та їх
гібридизації. Окрім того, з’являються нові інноваційні підходи і методи до
прогнозування/передбачення часових рядів.
Також у роботах робиться акцент на проблемах, з якими стикаються як
традиційні, так і нові підходи до прогнозування часових рядів.
До таких проблем можна віднести:
нестаціонарність рядів та наявність аномалій у даних,
ускладнену інтерпретованість результатів прогнозування,
масштабованість даних,
проблема «холодного старту» (cold start) – це ситуація, коли модель або
система не має достатньо (або взагалі не має) історичних даних, щоб
робити надійні прогнози.
Сказане свідчить про актуальність проблеми побудови моделей
прогнозування часових рядів та розробки методик їх використання у різних сферах,
зокрема в енергетиці для прогнозування споживання природного газу.
Також актуальність теми кваліфікаційної роботи магістра обумовлена тим,
що Україна є одним з найбільших споживачів природного газу в Європі і має
складну газотранспортну систему, яка функціонує в умовах війни, коли частина
станцій не працюють, або працюють нестабільно, тому моделювання і
прогнозування динаміки споживання природного газу є важливим інструментом
планування обсягів його видобутку, закупівлі та зберігання, а також запобігання
потенційних втрат, що може бути критичним для української економіки.
Мета, завдання, об’єкт і предмет дослідження. Метою дослідження є
побудова адаптивних моделей та розробка методів моделювання та прогнозування
динаміки регіонально структурованого споживання природного газу на основі
даних газотранспортної системи України.
Для досягнення поставленої мети необхідно вирішити такі завдання:
1. Зробити огляд сучасних наукових джерел, публікацій і нормативних
документів за темою дослідження;
2. Провести аналіз предметної області щодо споживання природного газу в
Україні та дати характеристику існуючих підходів, моделей і методів
прогнозування часових рядів, що є основою прогнозування цього
споживання;
3. Побудувати адаптивні моделі та розробити методики моделювання та
прогнозування динаміки регіонально структурованого споживання
природного газу в Україні;
4. Спроектувати і реалізувати програмний модуль моделювання і
прогнозування динаміки регіонального споживання природного газу в
Україні з використанням сучасних інформаційних технологій та мов
програмування;
5. Провести тестування функціональності, продуктивності та математичної
коректності розробленого програмного модуля на реальних даних.
Об’єкт дослідження: процеси регіонального споживання природного газу на
основі даних газотранспортної системи України.
Предмет дослідження: моделі та методи моделювання та прогнозування
динаміки споживання природного газу на основі сучасних підходів, моделей і
методів аналізу часових рядів.
Методи дослідження.
У дослідженні були використані такі методи:
теоретичні методи: аналіз і узагальнення наукових джерел, вивчення
існуючих статистичних і машинних моделей, систематизація підходів до
прогнозування, моделювання або класифікації даних часових рядів;
статистичні та математичні методи: методи аналізу часових рядів на
основі авторегресійної та нейромережної моделей;
комп’ютерні та емпіричні методи: проведення моделювання, машинного
навчання, візуалізації даних, порівняння моделей, тестування точності
прогнозів, методи реалізації алгоритмів у програмному середовищі Python.
Наукова новизна отриманих результатів. Удосконалено моделі та методи
моделювання та прогнозування споживання природного газу на основі поєднання
статистичних та нейромережних підходів до аналізу часових рядів, що дозволило
підвищити точність оцінок прогнозу та значно скоротити час при моделюванні
регіональних енергетичних процесів в Україні з урахуванням особливостей її
функціонування в умовах війни.
Практичне значення отриманих результатів. Кваліфікаційна робота
виконувалася на замовлення оператора газотранспортної системи України, а її
результати проходять експериментальне випробування у реальних умовах
функціонування ГТС.
Апробація результатів роботи. Основні положення і результати
кваліфікаційної роботи магістра доповідалися і були обговорені на:
1. Студентській науково-практичної конференції ЧДТУ: 22–24 квітня 2025 р.,
м. Черкаси;
2. ІV міжнародній науково-практичній Інтернет-конференції «Інновації та
перспективні шляхи розвитку інформаційних технологій» (ІПШРІТ-2025),
25 листопада 2025, м. Черкаси.
Публікації. За результатами кваліфікаційної роботи магістра опубліковані
двоє тези:
1. Племенник Я.Ю., Карапетян А.Р. Прогнозування регіонально
структурованого споживання природного газу з газотранспортної системи України
// Збірник тез доповідей студентської науково-практичної конференції ЧДТУ: 22–
24 квітня 2025 р. м. Черкаси [Електронний ресурс] / [упоряд. : Єгорова О. В.,
Захарова О. В., Тичков В. В. та ін.] ; М-во освіти і науки України, Черкас. держ.
технол. ун-т. – Черкаси : ЧДТУ, 2025. С. 40-41.
2. Племенник Я.Ю. Моделі і методи прогнозування регіонально
структурованого споживання прориродного газу на основі даних газотранспортної
системи україни // Збірник тез доповідей ІV Міжнар. наук.-практич. конфер.
«Інновації та перспективні шляхи розвитку інформаційних технологій» (25 лист.
2025 р., м. Черкаси) [Електронний ресурс] / упоряд.: Т. О. Прокопенко, М-во освіти
і науки України, Черкас. держ. технол. ун-т. Черкаси : ЧДТУ, 2025.
Перелік ключових слів: ПРОГНОЗУВАННЯ ЧАСОВИХ РЯДІВ,
ОПТИМІЗАЦІЯ, ГАЗОТРАНСПОРТНА СИСТЕМА, СПОЖИВАННЯ
ПРИРОДНОГО ГАЗУ, МАШИННЕ НАВЧАННЯ, НЕЙРОННІ МЕРЕЖІ, ARIMAX,
LSTM.
ABSTRACT
Master's qualifying work includes: 85 p. of main text, 48 figures, 39 sources
used, 3 appendices.
Relevance of the topic.
Time series forecasting is one of the important and challenging problems whose
solution provides key information for decision-making in various fields, such as
economic planning, supply chain management, and medical diagnostics.
Modern scientific publications from 2020–2025 on time series forecasting
demonstrate a transition from traditional statistical methods (e.g., ARIMA) to deep
learning approaches (such as LSTM and Transformer-based architectures), and also
highlight fundamental challenges associated with this task, including data non-
stationarity, a rapid increase in data volume, limited interpretability, and the inefficiency
of existing methods for long forecasting horizons.
The conducted analysis of publications indicates significant interest from both
researchers and practitioners in time series forecasting problems across a wide range of
domains, including economics, energy, transportation, meteorology, and medicine. At the
same time, research in this area focuses both on traditional forecasting models and on
models based on deep learning, as well as on their hybridization. In addition, new
innovative approaches and methods for time series forecasting and prediction continue to
emerge.
Special attention in the literature is paid to the challenges faced by both traditional
and modern forecasting approaches. These challenges include:
non-stationarity of time series and the presence of anomalies in data;
limited interpretability of forecasting results;
data scalability issues;
the cold start problem, which arises when a model or system lacks sufficient (or
any) historical data to produce reliable forecasts.
The above confirms the relevance of developing time series forecasting models and
methodologies for their application in various fields, particularly in the energy sector for
forecasting natural gas consumption.
The relevance of the topic of this master’s qualification work is further justified by
the fact that Ukraine is one of the largest consumers of natural gas in Europe and has a
complex gas transmission system operating under wartime conditions. In such conditions,
some gas distribution stations operate unstably or are temporarily unavailable. Therefore,
modeling and forecasting the dynamics of natural gas consumption is a critical tool for
planning production volumes, procurement, and storage, as well as for preventing
potential losses, which may be crucial for the Ukrainian economy.
Purpose and research tasks. The purpose of the research is to develop adaptive
models and methods for modeling and forecasting the dynamics of regionally structured
natural gas consumption based on data from the gas transmission system of Ukraine.
To achieve this goal, the following objectives are addressed:
1. To review modern scientific sources, publications, and regulatory documents
related to the research topic;
2. To analyze the subject domain of natural gas consumption in Ukraine and
characterize existing approaches, models, and methods of time series forecasting
that form the basis for consumption prediction;
3. To develop adaptive models and methodologies for modeling and forecasting
the dynamics of regionally structured natural gas consumption in Ukraine;
4. To design and implement a software module for modeling and forecasting
regional natural gas consumption using modern information technologies and
programming languages;
5. To test the functionality, performance, and mathematical correctness of the
developed software module using real-world data.
Object of the research: the processes of regional natural gas consumption based
on data from the gas transmission system of Ukraine.
Subject of the research: models and methods for modeling and forecasting the
dynamics of natural gas consumption using modern approaches, models, and methods of
time series analysis.
Research Methods. The following research methods were applied:
theoretical methods: analysis and synthesis of scientific sources, study of
existing statistical and machine learning models, systematization of approaches
to forecasting, modeling, and classification of time series data;
statistical and mathematical methods: time series analysis methods based on
autoregressive and neural network models;
computational and empirical methods: simulation, machine learning, data
visualization, model comparison, forecasting accuracy evaluation, and
implementation of algorithms in the Python programming environment.
Approbation of the Research Results. The main provisions and results of the
master’s qualification thesis were presented and discussed at the following scientific
events:
1. Student Scientific and Practical Conference of Cherkasy State Technological
University, April 22–24, 2025, Cherkasy, Ukraine;
2. IV International Scientific and Practical Internet Conference “Innovations and
перспективні ways of Information Technology Development” (IPWIT-2025), November
25, 2025, Cherkasy, Ukraine.
Publications. Based on the results of the master’s qualification thesis, two
conference abstracts were published.
3. Plemenyk Y., Karapetian A. Forecasting Regionally Structured Natural Gas
Consumption in the Gas Transmission System of Ukraine. In Proceedings of the Student
Scientific and Practical Conference of Cherkasy State Technological University,
Cherkasy, Ukraine, April 22–24, 2025, pp. 40–41.
4. Plemenyk Y. Models and Methods for Forecasting Regionally Structured
Natural Gas Consumption Based on Data from the Gas Transmission System of Ukraine.
In: Proceedings of the IV International Scientific and Practical Conference “Innovations
and перспективні Ways of Information Technology Development”, Cherkasy, Ukraine,
November 25, 2025.
The key words: TIME SERIES FORECASTING, OPTIMIZATION, GAS
TRANSMISSION SYSTEM, NATURAL GAS CONSUMPTION, MACHINE
LEARNING, NEURAL NETWORKS, ARIMAX, LSTM
9
ЗМІСТ
ПЕРЕЛІК УМОВНИХ ПОЗНАЧЕНЬ, СИМВОЛІВ, СКОРОЧЕНЬ І ТЕРМІНІВ...11
ВСТУП………………………………………………………………………………....12
1 ТЕОРЕТИЧНІ ОСНОВИ АНАЛІЗУ ЧАСОВИХ РЯДІВ…………………………16
1.1 Критичний огляд сучасних наукових джерел з прогнозування часових
рядів……………………………………………………………………………16
1.2 Характеристика існуючих підходів, моделей і методів до прогнозування
часових рядів…………………………………………………………………..23
1.2.1 Загальна постановка задачі прогнозування часових рядів……………23
1.2.2 Класифікація задач прогнозування часових рядів…………………….25
1.2.3 Традиційні статистичні методи прогнозування часових рядів……….27
1.2.4 Методи машинного навчання прогнозування часових рядів…………28
1.3 Визначення проблеми дослідження та невирішених питань……………….30
1.4 Систематизація та класифікація підходів, моделей і методів прогнозування
споживання природного газу…………………………………………………33
1.5 Аналіз програмного забезпечення для прогнозування часових рядів……...39
Висновки до розділу 1……………………………………………………………...43
2 АНАЛІТИЧНА ОБРОБКА ЧАСОВИХ РЯДІВ СПОЖИВАННЯ ПРИРОДНОГО
ГАЗУ………………………………………………………………………………...46
2.1 Опис вихідних даних та їх джерел……………………………………………46
2.2 Методика збирання, підготовки та очищення даних………………………..48
2.3 Аналітична обробка із застосуванням статистичних і машинних методів...52
2.3.1 Застосування моделі часових рядів ARIMAX…………………………52
2.3.2 Застосування рекурентної нейронної мережі LSTM…………………..54
Висновки до розділу 2……………………………………………………………...59
3 ПРОГРАМНИЙ МОДУЛЬ МОДЕЛЮВАННЯ І ПРОГНОЗУВАННЯ
ДИНАМІКИ РЕГІОНАЛЬНОГО СПОЖИВАННЯ ПРИРОДНОГО ГАЗУ……..60
3.1 Побудова та обгрунтування прогнозної моделі споживання природного газу
………………………………………………………………………………….60
10
3.1.1 Програмна реалізація моделі ARIMAX………………………………..60
3.1.2 Програмна реалізація нейронної мережі типу LSTM………………….71
3.2 Розроблення та реалізація програмного модуля…………………………….83
3.3 Інтеграція результатів у практичне середовище…………………………….86
3.4 Оцінювання ефективності прикладного рішення…………………………...87
3.5 Перспективи подальшого розвитку програмного модуля…………………..90
Висновки до розділу 3……………………………………………………………...93
ВИСНОВКИ…………………………………………………………………………...95
СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ……………………………………………..97
Додаток А. Специфікація……………………………………………………………102
Додаток Б. Текст програми………………………………………………………….104
Додаток В. Публікації з теми кваліфікаційної роботи магістра…………………...111
11
ПЕРЕЛІК УМОВНИХ ПОЗНАЧЕНЬ, СИМВОЛІВ, СКОРОЧЕНЬ І
ТЕРМІНІВ
ARIMA – авторегресія з інтегрованим ковзним середнім
ARIMAX – авторегресія з інтегрованим ковзним середнім з екзогенними
змінними
RNN – рекурентна нейронна мережа
LSTM – модель довгої короткострокової пам’яті
GRU – мережа закритого повторного блоку
ReLU – випрямлений лінійний блок
MAPE – середня абсолютна відсоткова похибка
12
ВСТУП
Прогнозування об’ємів споживання газу є однією з найбільш актуальних
задач у сфері енергетики і має велике значення, оскільки її неякісні рішення
призводять до значних економічних збитків. Враховуючи, що Україна має одну з
інфраструктурно найскладніших газотранспортних систем і є одним з найбільших
споживачів природного газу в Європі з середнім показником приблизно у сто
мільйонів кубічних метрів в опалювальний період, то потенційні його втрати
можуть бути критичними для української економіки.
Газотранспортна система – це сукупність взаємопов'язаних газопроводів і
супутніх з ними споруд, призначених для забезпечення газом споживачів. Вона є
з’єднувальною ланкою між джерелами газу (родовищами) і споживачами. В
Україні кінцевими точками транспортування газу газотранспортною системою є
газорозподільні станції. Для прямих споживачів газ розподіляють і доставляють
газорозподільні компанії [1].
Складність вирішення даної задачу, як задачі прогнозування часових рядів,
полягає не лише у складності самої газотранспортної системи України, а також у
фізичному знищенні її окремих вузлів та періодичній непередбачуваній
некоректності автоматизованих і ручних систем збору вхідних даних про
споживання газу в умовах війни.
Актуальність дослідження. Прогнозування часових рядів є однією з
важливих і складних задач, вирішення якої забезпечує одержання ключової
інформації для ухвалення рішень у різних сферах, таких як економічне планування,
управління ланцюгами постачання та медична діагностика.
Сучасні наукові публікації 2020-2025 років щодо прогнозування часових
рядів демонструють перехід від традиційних статистичних методів (ARIMA) до
глибокого навчання (LSTM, Transformer-архітектури), а також підкреслюють
фундаментальні проблеми, пов’язані з вирішенням цієї задачі: нестаціонарність
даних, різке збільшення їх обсягу, слабку інтерпретованість та неефективність
існуючих методів на довгих горизонтах.
13
Проведений аналіз публікацій свідчить про значний інтерес науковців і
практиків до задачі прогнозування часових рядів у різних галузях від економіки,
енергетики і транспорту до метеорології і медицини.
При цьому дослідження у цій сфері зосереджені як на традиційних моделях
прогнозування, так і на моделях, заснованих на глибокому навчання, та їх
гібридизації. Окрім того, з’являються нові інноваційні підходи і методи до
прогнозування/передбачення часових рядів.
Також у роботах робиться акцент на проблемах, з якими стикаються як
традиційні, так і нові підходи до прогнозування часових рядів.
До таких проблем можна віднести:
нестаціонарність рядів та наявність аномалій у даних,
ускладнену інтерпретованість результатів прогнозування,
масштабованість даних,
проблема «холодного старту» (cold start) – це ситуація, коли модель або
система не має достатньо (або взагалі не має) історичних даних, щоб
робити надійні прогнози.
Сказане свідчить про актуальність проблеми побудови моделей
прогнозування часових рядів та розробки методик їх використання у різних сферах,
зокрема в енергетиці для прогнозування споживання природного газу.
Також актуальність теми кваліфікаційної роботи магістра обумовлена тим,
що Україна є одним з найбільших споживачів природного газу в Європі і має
складну газотранспортну систему, яка функціонує в умовах війни, коли частина
станцій не працюють, або працюють нестабільно, тому моделювання і
прогнозування динаміки споживання природного газу є важливим інструментом
планування обсягів його видобутку, закупівлі та зберігання, а також запобігання
потенційних втрат, що може бути критичним для української економіки.
Мета, завдання, об’єкт і предмет дослідження. Метою дослідження є
побудова адаптивних моделей та розробка методів моделювання та прогнозування
14
динаміки регіонально структурованого споживання природного газу на основі
даних газотранспортної системи України.
Для досягнення поставленої мети необхідно вирішити такі завдання:
1. Зробити огляд сучасних наукових джерел, публікацій і нормативних
документів за темою дослідження;
2. Провести аналіз предметної області щодо споживання природного газу в
Україні та дати характеристику існуючих підходів, моделей і методів
прогнозування часових рядів, що є основою прогнозування цього
споживання;
3. Побудувати адаптивні моделі та розробити методики моделювання та
прогнозування динаміки регіонально структурованого споживання
природного газу в Україні;
4. Спроектувати і реалізувати програмний модуль моделювання і
прогнозування динаміки регіонального споживання природного газу в
Україні з використанням сучасних інформаційних технологій та мов
програмування;
5. Провести тестування функціональності, продуктивності та математичної
коректності розробленого програмного модуля на реальних даних.
Об’єкт дослідження: процеси регіонального споживання природного газу на
основі даних газотранспортної системи України.
Предмет дослідження: моделі та методи моделювання та прогнозування
динаміки споживання природного газу на основі сучасних підходів, моделей і
методів аналізу часових рядів.
Методи дослідження.
У дослідженні були використані такі методи:
теоретичні методи: аналіз і узагальнення наукових джерел, вивчення
існуючих статистичних і машинних моделей, систематизація підходів до
прогнозування, моделювання або класифікації даних часових рядів;
15
статистичні та математичні методи: методи аналізу часових рядів на
основі авторегресійної та нейромережної моделей;
комп’ютерні та емпіричні методи: проведення моделювання, машинного
навчання, візуалізації даних, порівняння моделей, тестування точності
прогнозів, методи реалізації алгоритмів у програмному середовищі Python.
Наукова новизна отриманих результатів. Удосконалено моделі та методи
моделювання та прогнозування споживання природного газу на основі поєднання
статистичних та нейромережних підходів до аналізу часових рядів, що дозволило
підвищити точність оцінок прогнозу та значно скоротити час при моделюванні
регіональних енергетичних процесів в Україні з урахуванням особливостей її
функціонування в умовах війни.
Практичне значення отриманих результатів. Кваліфікаційна робота
виконувалася на замовлення оператора газотранспортної системи України, а її
результати проходять експериментальне випробування у реальних умовах
функціонування ГТС.
16
1 ТЕОРЕТИЧНІ ОСНОВИ ПРОГНОЗУВАННЯ ЧАСОВИХ РЯДІВ
Прогнозування часових рядів є однією з важливих і складних задач,
вирішення якої забезпечує одержання ключової інформації для ухвалення рішень у
різних сферах, таких як економічне планування, управління ланцюгами постачання
та медична діагностика.
1.1 Критичний огляд сучасних наукових джерел з прогнозування
часових рядів
Сучасні наукові публікації 2020-2025 років щодо прогнозування часових
рядів демонструють перехід від традиційних статистичних методів (ARIMA) до
глибокого навчання (LSTM, Transformer-архітектури), а також підкреслюють
фундаментальні проблеми, пов’язані з вирішенням цієї задачі: нестаціонарність
даних, різке збільшення їх обсягу, слабку інтерпретованість та неефективність
існуючих методів на довгих горизонтах.
Після застосування традиційних статистичних методів і машинного навчання
були розроблені та впроваджені різні фундаментальні архітектури глибокого
навчання, такі як MLP, CNN, RNN та GNN, для розв’язання задач прогнозування
часових рядів. Моделі Transformer, які добре справляються з обробкою
довгострокових залежностей, стали важливими архітектурними компонентами для
прогнозування часових рядів.
У роботі [1] дано детальний огляд не лише історії розвитку прогнозування
часових рядів, але й пропонується всебічний і сучасний аналіз тенденцій щодо
архітектурного різноманіття моделей (рис. 1.1). Порівнюючи та переосмислюючи
різні моделі глибокого навчання, автори відкривають нові перспективи та
представляють найсвіжіші тенденції у прогнозуванні часових рядів, пов’язаних з
появою гібридних моделей, дифузійних моделей, фундаментальних (базових)
моделей та моделей Mamba [2]. Зосереджуючись на внутрішніх особливостях
даних часових рядів, у роботі також розглядаються відкриті проблеми, що
17
привертають особливу увагу в прогнозуванні, такі як: залежність між каналами,
зсув розподілу, причинність та вилучення ознак. У цьому огляді досліджуються
ключові моменти, здатні підвищити ефективність прогнозування за допомогою
різноманітних підходів.
Рисунок 1.1 – Еволюція моделей прогнозування часових рядів [1]
У роботі [2] зазначено, що базові моделі, які зараз лежать в основі більшості
застосувань у глибокому навчанні, майже повсюдно базуються на архітектурі
Transformer та її основному модулі уваги. Багато субквадратичних архітектур,
таких як лінійна увага, моделі згортки з керованою увагою та рекурентні моделі, а
також моделі структурованого простору станів (SSM), були розроблені для
вирішення обчислювальної неефективності Transformer на довгих послідовностях,
але вони не працювали так добре, як увага на важливих модальностях, таких як
мова. Автори визначили, що ключовою слабкістю таких моделей є їхня нездатність
виконувати міркування на основі змісту, і внесли кілька покращень. По-перше,
просте визначення параметрів SSM як функцій вхідних даних усуває їхню
слабкість за допомогою дискретних модальностей, дозволяючи моделі вибірково
поширювати або забувати інформацію вздовж виміру довжини послідовності
залежно від поточного токена. По-друге, хоча ця зміна запобігає використанню
ефективних згорток, у роботі розроблено апаратно-залежний паралельний
алгоритм у рекурентному режимі. Автори запропонували інтегрувати ці вибіркові
SSM у спрощену наскрізну архітектуру нейронної мережі без уваги або навіть
18
блоків MLP (Mamba). Mamba пропонує швидкий висновок (у 5 разів вищу
пропускну здатність, ніж у Transformers) та лінійне масштабування довжини
послідовності, а її продуктивність покращується на реальних даних аж до
послідовностей довжиною в мільйон. Як загальна основа моделі послідовностей,
Mamba досягає найсучаснішої продуктивності в кількох модальностях, таких як
мова, аудіо та геноміка.
В огляді [3] всебічно вивчаються традиційні підходи до прогнозування
часових рядів та розглядаються загальні парадигми прогнозування глибоких
часових рядів (ГЧР) з точки зору архітектур відповідних моделей. Крім того, автори
роботи застосовують інноваційний підхід, зосереджуючись на складі часових рядів
та систематично пояснюючи важливі методи вилучення ознак, надають загальну
компіляцію наборів даних з різних галузей діяльності людини (рис. 1.2) в існуючих
роботах, а також систематично підкреслюють значні проблеми, з якими стикаються
дослідники, та майбутні напрямки досліджень у цій галузі.
Рисунок 1.2 – Набори даних часових рядів у первинних доменах [3]
GitHub-репозиторій (TSFpaper, 2022-2025) містить каталог з більш ніж 400
статей з прогнозування/передбачення часових рядів, при цьому виділяється тренд
на роботи, присвячені просторово-часовому прогнозуванню (spatio-temporal
19
forecasting) [4]. У вступі до цього репозиторію зазначається, що просторово-часове
прогнозування часто використовується в прогнозуванні дорожнього руху та
погоди, і воно додає просторовий вимір порівняно з одновимірним та
багатовимірним прогнозуванням. Просторово-часові моделі зазвичай можна
безпосередньо застосовувати до багатовимірного прогнозування, а багатовимірні
моделі також можна використовувати для просторово-часового прогнозування з
незначними модифікаціями.
У роботі вітчизняних науковців [5] запропоновано новий, так званий
лінгвістичний підхід до прогнозування, на базі якого будується ряд методів. Підхід
передбачає задавання лише двох параметрів для здійснення прогнозу часового
ряду, однак ці параметри не є прямо пов’язаними між собою, задаються окремо та
не потребують глибокого аналізу часового ряду. Запропонований підхід дозоляє
здійснювати прогнозування як стаціонарних, так і нестаціонарних рядів, не
передбачає аналізу часового ряду на сезонність, однак автоматично враховує її при
формуванні прогнозних значень.
Сьогодні великі мовні моделі (LLM) застосовуються в багатьох галузях і
швидко розвиваються останніми роками. Як класичне завдання машинного
навчання, прогнозування часових рядів нещодавно отримало посилення завдяки
LLM. Нещодавні роботи розглядають великі мовні моделі як методи аналізу
часових рядів з нульовим моментом без подальшого налаштування, що досягає
вражаючої продуктивності. Однак, існують деякі невивчені проблеми при
застосуванні LLM для прогнозування часових рядів у режимі нульового моменту.
У роботі [6] досліджуються переваги та обмеження LLM у прогнозуванні часових
рядів за різних умов. Автори при порівнянні LLM з традиційними моделями
прогнозування часових рядів виявили багато цікавих властивостей LLM у
контексті прогнозування часових рядів. По-перше, дослідження показало, що LLM
добре справляються з прогнозуванням часових рядів з чіткими закономірностями
та тенденціями, але стикаються з проблемами з наборами даних, яким бракує
періодичності. Це спостереження автори пояснюють здатністю LLM розпізнавати
базовий період у наборах даних, що підтверджується нашими експериментами.
20
Крім того, досліджується стратегія введення даних, і виявлено, що включення
зовнішніх знань та використання парафраз природною мовою суттєво покращує
прогностичну ефективність LLM для часових рядів.
Проведений аналіз публікацій свідчить про значний інтерес науковців і
практиків до задачі прогнозування часових рядів у різних галузях від економіки,
енергетики і транспорту до метеорології і медицини. При цьому дослідження у цій
сфері зосереджені як на традиційних моделях прогнозування, так і на моделях,
заснованих на глибокому навчання, та їх гібридизації. Окрім того, з’являються нові
інноваційні підходи і методи до прогнозування/передбачення часових рядів. Також
у роботах робиться акцент на проблемах, з якими стикаються як традиційні, так і
нові підходи до прогнозування часових рядів. До таких проблем можна віднести:
нестаціонарність рядів та наявність аномалій у даних, ускладнену
інтерпретованість результатів прогнозування, їх масштабованість та так звана
проблема «холодного старту» (cold start) – це ситуація, коли модель або система не
має достатньо (або взагалі не має) історичних даних, щоб робити надійні прогнози.
Зазначимо, що ДСТУ ISO 10017:2023 [7] рекомендує методи аналізу часових
рядів для прогнозування запасів, прогулів, замовлень та акцентує на декомпозиції:
тренд+сезонність, а також рекомендує здійснювати планування запасів та
клієнтських замовлень через ARIMA-подібні моделі. На жаль, існуючі стандарти і
нормативні документи орієнтовані на класичні методи прогнозування часових
рядів і поки немає ISO для DL-методів чи AutoML, а також вони не адаптовані до
останніх AI-моделей.
Сказане свідчить про актуальність проблеми побудови моделей
прогнозування часових рядів та розробки методик їх використання у різних сферах,
зокрема в енергетиці для прогнозування споживання природного газу.
Традиційні методи прогнозування динаміки споживання природного газу
намагалися використовувати довгострокові характеристики, керуючись
попередніми знаннями (такими як сезонні дані, дані про погоду та свята). Однак
вони часто не аналізують обґрунтовані кореляції між цими характеристиками.
21
У роботі [8] пропонується огляд різних опублікованих статей, пов'язаних з
методами прогнозування попиту та споживання природного газу. Класифікуючи
новітні методи прогнозування попиту на природний газ, автори враховували їхні
методології, підхід, розмір даних, продуктивність, результати та обмеження.
Метою цієї оглядової роботи є представлення класифікованого дослідження
алгоритмів прогнозування скрапленого нафтового газу та активів, пов'язаних з
природним газом. Це дослідження надає розуміння останніх досліджень у галузі
методів прогнозування попиту та пропозиції природного газу.
У статті [9] пропонується модель прогнозування споживання природного
газу, заснована на оптимізації характеристик та інкрементальній LSTM.
Запропонований метод підвищує стійкість та можливості узагальнення моделі на
рівні даних, поєднуючи гауссові моделі для обробки відсутніх та аномальних даних
за допомогою моделювання та вибірки. Також розроблено слабо контрольовану
каскадну мережу для вибору ознак, щоб модель могла адаптивно вибирати ознаки
на основі попередніх знань. Окрім того, в роботі вводиться інкрементальна
регресійна втрата різниці на основі навчання, щоб сприяти розумінню моделлю
пов'язаних зв'язків у розподілі даних. Запропонований метод демонструє виняткову
ефективність у щоденному прогнозуванні газового навантаження міста Ухань за
період з 2011 по 2024 рік. Зокрема, він досягає помітно низьких середніх похибок
прогнозування 0,0556 та 0,0392 у 10 днів з найбільшим рівнем опалення та без
нього відповідно. Ці результати підкреслюють високу здатність моделі до
узагальнення та її потенціал для надійного розгортання в різноманітних завданнях
прогнозування споживання газу в реальних програмах глибокого навчання.
Для вирішення проблеми прогнозування споживання природного газу в
статті [10] пропонується модель прогнозування, яка поєднує ансамблеве навчання
(EL), варіаційну модальну декомпозицію (VMD), трансформний (Transformer)
метод та LSTM. Спочатку XGBoost, CatBoost та LightGBM використовуються як
базові навчальні методи в рамках ансамблевого навчання, а прогнози, згенеровані
ансамблевою моделлю, інтегровані в оригінальний набір даних. Далі метод VMD
використовується для розкладання послідовності навантаження природного газу на
22
кілька внутрішніх модальних функцій (IMF), ефективно витягуючи
характеристики, притаманні послідовності споживання природного газу. Далі, дані
вводяться в мережу Transformer-ResLSTM для прогнозування. Ця мережа замінює
оригінальну структуру декодера Transformer мережею LSTM та повністю
зв'язаними шарами, створюючи нову структуру декодера. Крім того, механізм
залишкового зв'язку вводиться як у кодер мережі Transformer, так і в нову
структуру декодера. Експериментальні результати показують, що порівняно з
традиційними моделями, такими як ARIMA, Transformer, GRU та LSTM,
запропонована гібридна модель значно покращує точність прогнозування,
зменшуючи MSE на 92–98% та MAE на 74–83%. Таким чином, цей метод
демонструє значний потенціал та практичну цінність у підвищенні точності
прогнозування споживання природного газу.
На основі досліджень [8]-[10] можна зробити певні висновки щодо методів
прогнозування споживання природного газу. Прогнозування споживання
природного газу з низьким ступенем вхідних змінних може бути ефективно
виконано за допомогою моделей LSTM, проте продуктивність LSTM починає
значно знижуватися зі збільшенням вхідних змінних. Комбіновані або
мультимоделі усувають недоліки окремих методів, такі як надмірне та недостатнє
налаштування, зберігаючи при цьому їхні переваги та забезпечуючи точніші
прогнози. Більше того, якщо вхідні дані містять багато нелінійності та коефіцієнт
сезонності, то моделі експоненціального згладжування (Exponential Smoothing)
добре з ними справляються.
Нечіткі когнітивні штучні неронні мережі (Fuzzy Cognitive Artificial Neural
Network, FCANN) мають достатні можливості для налаштування та прогнозування
при порівнянні результатів зі стандартними моделями (Artificial Neural Networks,
ANN). Моделі ARIMA, порівняно з різними алгоритмами прогнозування, є одними
з найменш спроможних моделей обробки даних з високими варіаціями та
нелінійністю. Множинна лінійна регресія (Multiple Linear Regression, MLR), будучи
найпростішим методом, не вимагає нерегулярності або аномалії у вхідних даних
споживання та сезонності, а горизонт прогнозування є тижневим або місячним.
23
Ще однією сферою для дослідження є використання додаткових складних
моделей. Метаматичне моделювання може бути найкращим варіантом, якщо
потрібно включити характеристики використання споживачів для тижневих або
місячних даних. Більше того, згорткові нейронні мережі (Conventional Neural
Network, CNN), які широко використовуються в комп'ютерному зорі та
розпізнаванні зображень, не були достатньо досліджені для їх застосування до
часових рядів. Замкнутий рекурентний блок (Gated Recurrent Unit, GRU) може
забезпечити глибше розуміння моделювання часових рядів та досягти вищої
точності прогнозування. Це може бути можливим напрямком для майбутнього
аналізу, пошуку додаткової складної моделі, яка б підвищила точність моделей
прогнозування. Результати прогнозування можна покращити за допомогою
евристичної оптимізації, ансамблевих регресорів або RNN, трансформних
(Transformer) методів, а також гібридних моделей, що мають здатність підвищувати
точність та стійкість базових моделей машинного навчання.
1.2. Характеристика існуючих підходів, моделей і методів прогнозування
часових рядів
Прогнозування часових рядів – це фундаментальна задача аналітики, що
поєднує традиційні статистичні методи з сучасними підходами машинного
навчання. Тому методи прогнозування часових рядів можна умовно поділити на
два основні класи: традиційні статистичні методи і методи машинного
навчання.
Розглянемо загальну постановку задачі прогнозування часових рядів.
1.2.1 Загальна постановка задачі прогнозування часових рядів
Часовий ряд – це сукупність значень випадкового процесу, взятих через рівні
проміжки часу t. Задача прогнозування часових рядів полягає в побудові
математичної моделі, яка на основі історичних спостережень {(1), (2), … , ()}
випадкового процесу, взятих через рівні проміжки часу, передбачає майбутні
24
значення ряду (+ℎ) на горизонті ℎ кроків вперед, мінімізуючи критерій
адекватності моделі [11].
Часовий ряд
= {(1), (2), … , ()} (1.1)
розкладається на закономірності та випадкові складові:
= + + + , (1.2)
де
– тренд часового ряду,
– сезонність часового ряду,
– циклічність часового ряду,
– випадковий шум.
Фактично – це є дискретний у часі випадковий процес. Зрозуміло, що
точно спрогнозувати значення випадкового процесу, яким є часовий ряд,
неможливо в принципі, а тому прогноз здійснюють, намагаючись досягти мінімуму
певного критерію адекватності прогнозної моделі [11].
З математичної точки зору прогнозне значення ?̂?+ℎ реального значення +ℎ
будується як функція виду
?̂?+ℎ = ( , ), (1.3)
де – модель прогнозу, θ – параметри, оптимізовані за певним критерієм
((?̂?+ℎ, +ℎ)) → , (1.4)
де – математичне сподівання, – деяка функція втрат, який називають
якістю прогнозів часових рядів.
Найпоширенішими показниками для вимірювання якості прогнозів часових
рядів, що кількісно оцінюють розбіжність між фактичними та спрогнозованими
значеннями, є MSE (Mean Squared Error) – середня квадратична помилка та MAE
(Mean Absolute Error) – середня абсолютна помилка:
1
(?̂?+ℎ, +ℎ)) = ∑ℎ
=1(?̂?+ − 2
+) – MSE; (1.5)
ℎ
1
(?̂?+ℎ, )) = ∑ℎ
+ℎ ℎ =1|?̂?+ − +| – MAE. (1.6)
25
Задача прогнозування (1.3)-(1.4) часового ряду (1.1)-(1.2) при критеріях
якості прогнозу, де функція втрат має вигляд (1.5), або (1.6) є задачею нелінійної
оптимізації.
Серед задач прогнозування часових рядів виділяються задачі з набором
певних специфічних ознак, тому важливо провести їх класифікацію.
1.2.2 Класифікація задач прогнозування часових рядів
Задачі дослідження явищ і процесів, розвиток яких пов'язаний із часом,
можна поділити на декілька класів за певними властивостями ознак, що їх
характеризують:
за характером основних ознак об'єкту дослідження;
за числом ознак об'єкту дослідження;
за часом випередження.
Класифікація за характером основних ознак об'єкту дослідження:
прогнозування явищ, реалізації яких представлені у вигляді
детермінованих (стаціонарних) часових рядів;
прогнозування явищ, реалізації яких представлені у вигляді
недетермінованих (нестаціонарних) часових рядів.
Стаціонарний часовий ряд характеризується однорідністю в часі, без
суттєвих змін характеру коливань та їх середньої амплітуди, при цьому вибір
проміжку для формування навчальної множини довільний.
Нестаціонарний часовий ряд характеризується певною тенденцією розвитку
в часі. При дослідженні нестаціонарних процесів можна виділити ділянки, на яких
процес можна вважати стаціонарним, при цьому вибір проміжку для формування
навчальної множини в такому випадку обирається у відповідності до задачі
прогнозування.
Класифікація за числом ознак об'єкту дослідження:
одновимірна задача прогнозування, якщо явище (процес) представлене
лише однією ознакою, зміни якої відбуваються в часі;
26
багатовимірна задача прогнозування, якщо об'єкт або явище представлені
кількома ознаками, зміни яких відбуваються в часі.
Для наступної класифікації задач прогнозування потрібно врахувати
специфічний характер прогнозування часових рядів і дати кілька визначень.
Передісторією ряду називають набір елементів часового ряду, який
враховується для одного кроку прогнозування наступних елементів часового ряду.
Однокрокове прогнозування зводиться до задач відображення у випадку, коли
значення елементів передісторії можуть визначати лише один дискретний відлік
вхідних величин, тобто коли в (1.3) ℎ = 1: ?̂?+1.
Багатокрокове прогнозування характеризується збільшенням дискретних
відліків вхідної величини і, відповідно, збільшенням часу, на який здійснюється
прогноз (час випередження).
При багатокроковому прогнозуванні
вип = ∙ ℎ,
де вип – час випередження, – крок дискретизації вихідного параметра
(наприклад, рік, місяць, день, година тощо), ℎ – кількість кроків обчислення
прогнозування.
Класифікація задач прогнозування за часом випередження:
згладжування, ℎ = 0;
короткотерміновий прогноз: ℎ = ̅̅1̅̅; 2̅;
середньотерміновий прогноз: ℎ = ̅̅3̅̅; 7̅;
довготерміновий прогноз: ℎ = 8̅̅ ;̅̅1̅̅5.
Загальна постановка задачі прогнозування (1.1)-(1.6) є основою для вибору
конкретних методів прогнозування часових рядів.
Коротко розглянемо основних представників цих методів та їх базові
характеристики.
Прогнозування часових рядів – це фундаментальна задача аналітики, що
поєднує традиційні статистичні методи з сучасними підходами машинного
навчання. Методи умовно поділяються на два основні класи.
27
1.2.3 Традиційні статистичні методи прогнозування часових рядів
AR (AutoRegression) – найпростіший метод, де поточне значення залежить
від його попередніх значень (лагів). Математично це описується як:
= ∑=1 −,
де – коефіцієнти, p – порядок авторегресії.
Переваги цього методі: простота й низькі вимоги до ресурсів. Недоліки: він
не враховує нестаціонарність та складні залежності [1].
MA (Moving Average) – модель, де поточне значення залежить від
попередніх помилок прогнозування:
∑
=1 − + .
Коефіцієнти регулюють вплив історичних помилок [1].
ARIMA (AutoRegressive Integrated Moving Average) – це комбінація AR, I
(інтегрування) та MA моделей, позначена як ARIMA (p, d, q):
() = (, , , , ) = + ∑ ∆
( − ) + ∑ ( − ) + (),
=1 =1
де = (( − 1), … ( − ));
, , – параметри моделі;
() – значення часового ряду (ендогенного сигналу) у час n;
() – білий шум;
∆ – оператор різниці порядку s;
p – максимальний лаг ендогенного фактору для моделі;
q – максимальний лаг шуму для моделі.
ARIMA часто використовується для прогнозування нестаціонарних рядів із
циклічністю. Розширення включають SARIMA для сезонних залежностей та Auto-
ARIMA для автоматичного вибору параметрів [1].
Експоненціальне згладжування існує у трьох варіантах [1]. Просте
експоненціальне згладжування (SES) для рядів без тренду та сезонності
використовує:
28
= + (1 − )−1,
де — параметр згладжування (0 < < 1). Менші α надають більшої ваги
минулим спостереженням. Подвійне експоненціальне згладжування (Холта)
добавляє тренд компоненту для рядів з трендом. Потрійне експоненціальне
згладжування (Холта-Вінтерса) розширює це сезонністю через параметр .
Варіанти включають адитивний та мультиплікативний методи залежно від типу
сезонності [1].
STL Decomposition розкладає часовий ряд на три компоненти: тренд (T),
сезонність (S) та залишки (R). STL використовує LOESS (локально зважене
скатерегресійне згладжування) та виконує ітеративне згладжування в двох циклах:
внутрішньому (між сезонністю та трендом) та зовнішньому (для мінімізації
викидів). Значна перевага полягає у стійкості до викидів та нерегулярних змін, а
також простоті інтерпретації компонент [1].
VAR (Vector AutoRegression) використовується для моделювання кількох
взаємозалежних часових рядів:
= + ∑=1 − + ,
де – матриці коефіцієнтів.
VAR захоплює взаємозв'язки між змінними та дозволяє аналізувати шоки
через імпульсні функції [12].
BSTS (Bayesian Structural Time Series) комбінує статистичні методи з
баєсовим висновуванням через три компоненти: фільтр Калмана (розкладання
ряду), піково-пластинний метод (вибір предикторів) та баєсове усереднювання
моделей [13].
1.2.4 Методи машинного навчання прогнозування часових рядів
Градієнтний бустинг (XGBoost, LightGBM, CatBoost) застосовується до
часових рядів шляхом перетворення ряду на табульовані ознаки: затримки (лаги),
календарні ознаки (день тижня, місяць, свята), агреговані показники (ковзні
29
середні). Бібліотека skforecast спеціалізується на цьому процесі. Переваги: висока
точність, швидке навчання, природна обробка нелінійних залежностей [14].
LSTM (Long Short-Term Memory) — рекурентна архітектура зі
спеціальними коміркам пам'яті (gates: input, forget, output). На відміну від
звичайних RNN, LSTM вирішує проблему vanishing gradient, дозволяючи мережі
запам'ятовувати довгострокові залежності [15].
GRU (Gated Recurrent Unit) — спрощена версія LSTM з менше
параметрами, що часто дає порівнянні результати [15].
N-BEATS — архітектура нейронної мережі з прямим поширенням,
запропонована Element AI у 2019 році. Використовує кілька стеків блоків, де кожен
блок має дві гілки: прогнозування та залишку. Ключова особливість: інтерпретуємі
базисні функції (тренд, сезонність та ін.), які розкладають ряд на компоненти [16].
N-HITS – розширення N-BEATS з ієрархічною інтерполяцією, що поліпшує
захоплення мультиканальної залежності [17].
PatchTST розбиває часовий ряд на патчі розміром P, трансформує їх та
застосовує Transformer архітектуру, забезпечуючи масштабованість на довгих
рядах [18].
Temporal Fusion Transformer (TFT) комбінує Transformer архітектуру з
рекурентними шарами: включає variable selection network (вибір ознак), static
covariate encoders та encoder-decoder Transformer. Внаслідок механізму attention,
забезпечує інтерпретованість через ваги уваги та добре працює для холодного
старту з трансфер-навчанням [19].
NeuralProphet — гібридний підхід, що комбінує традиційні компоненти
Prophet (тренд, сезонність, свята) з нейронними мережами (AR-Net) на базі PyTorch
[20].
Prophet використовує модель:
= () + () + ℎ() + ,
де g(t) — функція тренду, s(t) — сезонна компонента, h(t) — корекція для
свят. Переваги: мінімальне налаштування, автоматична сезонність, підходить для
бізнес-рядів [21].
30
Ансамблювання. Ансамбль методи комбінують прогнози від кількох
моделей для поліпшення точності. Базові стратегії включають просте
середнювання, зважене середнювання та медіану. Просунуті методи: Stacking
(навчання мета-моделі на прогнозах базових моделей), Boosting (послідовне
навчання з фокусом на помилках) та Meta-Learning (автоматичний вибір
найкращого ансамблю для конкретного ряду на основі мета-ознак). Експерименти
на ~16000 наборів даних показали, що ансамблі поліпшують точність, але різні
ансамблі оптимальні для різних рядів [22].
На основі аналізу різних методів прогнозування часових рядів можна
сформулювати деякі практичні рекомендації щодо використання методів
прогнозування часових рядів:
для малих наборів з чіткою сезонністю рекомендуються Prophet або
SARIMA;
для фінансових рядів: ARIMA, VAR або градієнтний бустинг з ознаками;
для великих наборів зі складними залежностями: LSTM, N-BEATS або
Transformer архітектури;
для «холодного старту»: Temporal Fusion Transformer з трансфер-
навчанням;
для автоматичного рішення: AutoGluon-TimeSeries.
Дослідження порівняння ARIMA, Prophet та LSTM показало, що LSTM
забезпечує найкращу точність завдяки здатності моделювати складні патерни,
тоді як SARIMA також продемонструвала високу ефективність, особливо для
сезонних залежностей.
1.3 Визначення проблеми дослідження та невирішених питань
Прогнозування об’ємів споживання газу є однією з найбільш актуальних
задач у сфері енергетики і має велике значення, оскільки її неякісні рішення
призводять до значних економічних збитків. Зазначимо, що Україна має одну з
найскладніших газотранспортних систем і є одним з найбільших споживачів
31
природного газу в Європі з середнім показником приблизно у сто мільйонів
кубічних метрів в опалювальний період. Тому не обґрунтовані рішення на основі
не якісного прогнозу щодо обсягів його споживання і розподілу між областями
України можуть бути критичними для вітчизняної економіки.
Складність вирішення даної задачу, як задачі прогнозування часових рядів,
полягає не лише у складності самої газотранспортної системи України, а також у
фізичному знищенні її окремих вузлів (станцій) та періодичній непередбачуваній
некоректності автоматизованих і ручних систем збору вхідних даних про
споживання газу в умовах війни, коли частина станцій не працюють, або працюють
нестабільно. Тому моделювання і прогнозування динаміки споживання природного
газу є важливим інструментом планування обсягів його видобутку, закупівлі та
зберігання, а також запобігання потенційних втрат.
Як показав аналіз сучасних наукових публікацій 2020-2025 років, проведений
у п.1.1, вирішення проблеми моделювання та прогнозування споживання
природного газу здійснюється на основі методів прогнозування часових рядів. При
цьому використовуються як традиційні статистичні методи (ARIMA) (п. 1.2.3), так
і методи машинного, зокрема глибокого, навчання (LSTM, Transformer-
архітектури), а також гібридні та ансамблеві методи прогнозування часових рядів
(п. 1.2.4).
Окрім того, у публікаціях виокремлено фундаментальні проблеми, з якими
стикаються як традиційні, так і нові підходи до прогнозування часових рядів. До
таких проблем можна віднести:
нестаціонарність рядів та наявність аномалій у даних;
ускладнену інтерпретованість результатів прогнозування;
масштабованість даних;
проблема «холодного старту» (cold start) – це ситуація, коли модель або
система не має достатньо (або взагалі не має) історичних даних, щоб
робити надійні прогнози.
32
Зазначимо, що ці проблеми особливо гостро проявляються у часових рядах
споживання природного газу, зокрема в складних умовах експлуатації ГТС
України.
Враховуючи сказане, можна стверджувати, що важливою науковою і
практичною проблемою є побудова адаптивних моделей прогнозування динаміки
регіонально структурованого споживання природного газу, розробка відповідних
методики та програмного забезпечення, що їх реалізують, на основі даних
газотранспортної системи України в умовах воєнного стану.
Для вирішення зазначеної проблеми у межах дослідження необхідно
вирішити такі питання:
1. Зробити огляд сучасних наукових джерел, публікацій і нормативних
документів за темою дослідження;
2. Провести аналіз предметної області щодо споживання природного газу в
Україні та дати характеристику існуючих підходів, моделей і методів
прогнозування часових рядів, що є основою прогнозування цього споживання;
3. Побудувати адаптивні моделі та розробити методики моделювання та
прогнозування динаміки регіонально структурованого споживання природного
газу в Україні;
4. Спроектувати і реалізувати програмний модуль моделювання і
прогнозування динаміки регіонального споживання природного газу в Україні з
використанням сучасних інформаційних технологій та мов програмування;
5. Провести тестування функціональності, продуктивності та математичної
коректності розробленого програмного модуля на реальних даних.
Природний газ, як життєво важливий компонент глобальної енергетичної
структури, широко використовується як стратегічний ресурс та необхідний товар у
різних галузях, включаючи, промисловість та опалення житлових приміщень, а
також військове застосування. Окрім того, прогнозування попиту на природний газ
відіграє важливу роль для компаній у процесі управління його запасами та
прийняття рішень щодо його придбання. Для місцевих дистриб'юторів природного
газу важливо точно прогнозувати потреби своїх клієнтів у природному газі.
33
Тому точна оцінка споживання природного газу для забезпечення надійного
постачання як для цивільного, так і для військового використання стає
вирішальною в сучасних реаліях енергопостачання України.
1.4 Систематизація та класифікація підходів, моделей і методів
прогнозування споживання природного газу
Газотранспортна галузь є досить широкою і включає в себе багато різних
задач прогнозування в залежності від типу газу, його споживачів, цільового
використання, кількості незалежних змінних прогнозування тощо. Тим не менш,
враховуючи стабільне зростання попиту на газ в різних сферах, в науко-аналітичній
спільноті сформувався деякий консенсус щодо використання різних підходів,
моделей в залежності статистичних характеристик вхідних даних, їх розміру,
коректності.
Виділяють три основних підходи у задачах прогнозування споживання
природного газу:
1. Статистичні моделі.
Статистичні підходи до прогнозування часових рядів базуються на
припущенні, що майбутня поведінка системи може бути описана через
закономірності, виявлені в історичних даних. Такі моделі формалізують залежність
між поточними та попередніми значеннями ряду за допомогою аналітичних
рівнянь і параметрів, які оцінюються на основі статистичних методів.
Основною перевагою статистичних моделей є їхня прозорість та
інтерпретованість, що дозволяє аналізувати внесок окремих компонентів (тренду,
сезонності, шуму) у формування прогнозу. Крім того, вони, зазвичай, потребують
невеликих обчислювальних ресурсів і можуть ефективно застосовуватися за
обмеженого обсягу даних.
Водночас такі підходи часто накладають строгі припущення щодо
властивостей часових рядів, зокрема стаціонарності або лінійності, що знижує їхню
ефективність у випадках складної, нелінійної або нестабільної динаміки даних.
34
2. Моделі на основі штучних нейронних мереж.
Нейромережеві підходи розглядають задачу прогнозування як задачу
апроксимації складної нелінійної залежності між вхідними даними та майбутніми
значеннями часового ряду. Такі моделі не потребують жорстких статистичних
припущень щодо структури даних і здатні автоматично виявляти приховані
закономірності.
Перевагою моделей на основі штучних нейронних мереж є їхня гнучкість та
здатність працювати з багатовимірними даними, включно з екзогенними змінними,
такими як погодні або економічні фактори. Вони добре масштабуються на великі
обсяги інформації та демонструють високу точність у задачах зі складною
сезонністю та довготривалими залежностями.
Разом із тим, нейромережеві моделі мають низку обмежень, зокрема високу
обчислювальну складність, потребу у значних обсягах навчальних даних та
обмежену інтерпретованість отриманих результатів, що може ускладнювати їх
практичне використання.
3. Комбіновані та ансамблеві підходи.
Комбіновані та ансамблеві підходи ґрунтуються на поєднанні кількох різних
моделей або методів прогнозування з метою підвищення точності та стабільності
результатів. Ідея таких підходів полягає у використанні сильних сторін окремих
моделей та компенсації їхніх недоліків.
Ансамблеві методи дозволяють зменшити ризик перенавчання, підвищити
стійкість прогнозів до шуму та змін структури даних, а також забезпечити кращу
узагальнювальну здатність. Комбінування може здійснюватися як на рівні
результатів прогнозування, так і на рівні внутрішніх компонентів моделей.
Основним недоліком таких підходів є підвищена складність реалізації,
налаштування та супроводу, а також зростання обчислювальних витрат. Проте в
прикладних системах прогнозування, орієнтованих на високу точність та
надійність, ансамблеві рішення часто є найбільш перспективними.
Серед моделей статистичного підходу виділяють:
35
1. ARIMA, яка розглядається як класичний базовий інструмент
прогнозування часових рядів. Модель має ряд обмежень. ARIMA ефективна лише
за умов:
стаціонарності ряду;
відносно низької нелінійності;
обмеженої кількості вхідних факторів.
З результатами досліджень, ARIMA демонструє нижчі значення ² у
порівнянні з нейромережевими та комбінованими моделями, особливо при
наявності різких коливань або сезонних ефектів [8]. Вона не придатна для
використання у випадку рядів з великою дисперсією.
2. Множинна лінійна регресія (MLR) використовується для встановлення
лінійних залежностей між споживанням газу та зовнішніми факторами, такими як
температура або характеристики споживачів.
Дана модель має такі особливості:
проста у реалізації;
добре інтерпретується;
має низьку точність при складній динаміці попиту.
3. Експоненціальне згладжування (SES, Holt). Методи експоненціального
згладжування ефективні для уніваріантних часових рядів із чіткою сезонністю.
Модель SES має такі особливості:
добре працює на великих обсягах історичних даних;
є чутливою до неправильно оцінених сезонних коефіцієнтів;
не враховує складні нелінійні залежності.
У сучасних дослідженнях прогнозування споживання природного газу
значну увагу приділено моделям на основі штучних нейронних мереж. Це
зумовлено складною, нелінійною природою залежності між обсягами споживання
газу та зовнішніми факторами, зокрема температурою повітря, сезонністю,
соціально-економічними умовами та поведінкою споживачів.
36
Багатошарові перцептрони (MLP) є одними з перших нейромережевих
моделей, застосованих для прогнозування газоспоживання. Вони
використовуються для апроксимації нелінійної залежності між вхідними змінними
(історичне споживання, температура, календарні фактори) та прогнозованими
значеннями.
Переваги MLP полягають у простоті реалізації та здатності моделювати
нелінійні взаємозв’язки між змінними. Такі моделі добре працюють у випадках,
коли залежність між факторами є стабільною та не має виражених довготривалих
часових ефектів.
Недоліком MLP є відсутність вбудованого механізму врахування часової
послідовності. Для роботи з часовими рядами MLP потребують попередньої
інженерії ознак (лаги, ковзні середні), що ускладнює модель та знижує її
адаптивність до змін структури даних.
Рекурентні нейронні мережі (RNN) були запропоновані як розвиток
класичних MLP для роботи з послідовними даними. Вони зберігають інформацію
про попередні стани, що дозволяє безпосередньо враховувати часову залежність у
даних споживання газу.
Перевагою RNN є здатність моделювати короткострокові залежності у
часових рядах без необхідності явного формування лагових ознак.
Водночас істотним недоліком класичних RNN є проблема затухання та
вибуху градієнтів, що обмежує їх застосування для прогнозування з довгим
горизонтом та при наявності складної сезонності, характерної для газоспоживання.
Архітектура LSTM є найбільш поширеним нейромережевим підходом у
задачах прогнозування споживання природного газу, що підтверджується
результатами досліджень, наведених у роботах [8], [9]. LSTM дозволяє зберігати
релевантну інформацію протягом тривалих часових інтервалів завдяки механізму
комірки пам’яті та керуючих воріт.
Переваги LSTM полягають у високій точності прогнозування, здатності
моделювати як коротко-, так і довготривалі залежності, а також у можливості
ефективного врахування екзогенних змінних, зокрема температури повітря.
37
Недоліками є підвищена обчислювальна складність, значна кількість
параметрів та чутливість до якості й обсягу навчальних даних. Крім того,
інтерпретація результатів LSTM є ускладненою порівняно зі статистичними
моделями. LSTM демонструє найменші значення RMSE і найвищі ² [8].
У деяких дослідженнях для прогнозування газоспоживання
використовуються гібридні нейро-нечіткі моделі, зокрема когнітивні нейронні
мережі. Вони поєднують елементи нечіткої логіки та нейронних мереж, що
дозволяє враховувати експертні знання та зменшувати вплив шуму в даних.
Перевагою таких моделей є підвищена стабільність прогнозів і краща
інтерпретованість у порівнянні з класичними нейронними мережами.
Недоліком є складність налаштування та обмежена масштабованість, що
ускладнює використання цих підходів у промислових системах із великими
обсягами даних.
Аналіз досліджень показує, що нейронні мережі загалом перевершують
класичні статистичні підходи за точністю прогнозування споживання природного
газу, особливо за наявності екзогенних факторів, таких як температура повітря.
Серед нейромережевих архітектур найбільш ефективними є моделі з механізмами
пам’яті, які дозволяють враховувати сезонність та довготривалі залежності.
Разом із тим, вибір конкретного типу нейронної мережі має ґрунтуватися на
компромісі між точністю, обчислювальною складністю та вимогами до
інтерпретованості, що є критично важливим для практичного впровадження систем
прогнозування у сфері енергетики.
Основна ідея ансамблевих методів полягає в тому, що різні моделі по-різному
реагують на ті самі дані: одні краще відображають лінійні закономірності, інші –
нелінійні залежності або довготривалі тренди. Комбінування їх результатів
дозволяє зменшити загальну похибку прогнозування та підвищити
узагальнювальну здатність системи.
Ансамблеві підходи реалізуються у кількох формах. Найпоширенішим є
послідовне або паралельне поєднання статистичних моделей і нейронних мереж, де
38
статистичні методи використовуються для моделювання базової структури ряду, а
нейронні мережі – для корекції залишкових нелінійних компонент.
Іншим підходом є усереднення або зважене комбінування прогнозів,
отриманих з кількох незалежних моделей. Такий метод дозволяє зменшити вплив
випадкових помилок окремих моделей та підвищити стабільність прогнозу,
особливо за наявності шуму в даних.
Також існують гібридні архітектури, в яких різні типи моделей інтегруються
на рівні ознак або внутрішніх представлень, що дозволяє враховувати як часову
динаміку, так і вплив зовнішніх факторів, зокрема температури.
За результатами аналізу в роботі [8] зазначається, що ансамблеві методи
демонструють низку суттєвих переваг у задачах прогнозування газоспоживання:
підвищення точності прогнозів у порівнянні з одиночними моделями;
зменшення ризику перенавчання, характерного для складних
нейромережевих архітектур;
підвищена стійкість до аномалій, шуму та пропусків у даних;
краща адаптація до змін структури споживання в часі.
Ансамблеві підходи особливо ефективні для реальних прикладних систем, де
дані можуть бути неповними або нестабільними, а вимоги до надійності прогнозів
є критично важливими.
Попри переваги, у статті [8] відзначається, що ансамблеві методи мають і
певні недоліки. Зокрема, вони характеризуються підвищеною складністю реалізації
та налаштування, потребують більших обчислювальних ресурсів і ускладнюють
процес інтерпретації результатів.
Крім того, ефективність ансамблю значною мірою залежить від коректного
підбору та комбінування окремих моделей. Невдалий вибір компонентів ансамблю
може призвести до незначного або навіть негативного ефекту порівняно з
використанням одиночної моделі.
Ансамблеві та комбіновані методи є одним із найбільш перспективних
напрямів розвитку систем прогнозування споживання природного газу. Вони
39
дозволяють поєднувати переваги статистичних і нейромережевих підходів та
забезпечують баланс між точністю, стійкістю та практичною придатністю.
З огляду на тенденції розвитку прикладних систем прогнозування,
ансамблеві підходи розглядаються як ефективна основа для побудови
масштабованих і адаптивних програмних модулів, здатних працювати в умовах
змінного попиту та дрейфу даних.
Аналіз існуючих підходів до прогнозування часових рядів показав, що різні
класи моделей мають як переваги, так і обмеження, що зумовлює необхідність їх
вибору залежно від специфіки прикладної задачі. Статистичні моделі вирізняються
простотою та інтерпретованістю, однак їх ефективність обмежується
припущеннями щодо лінійності та стаціонарності даних.
Моделі на основі штучних нейронних мереж забезпечують вищу точність за
рахунок здатності моделювати складні нелінійні залежності та враховувати
довготривалі часові ефекти, проте потребують значних обчислювальних ресурсів і
якісних навчальних даних.
Комбіновані та ансамблеві підходи поєднують сильні сторони окремих
моделей, підвищують стійкість прогнозів і зменшують ризик перенавчання, що
робить їх перспективними для практичних систем прогнозування.
Загалом, сучасні тенденції свідчать про доцільність використання гнучких
моделей, здатних враховувати вплив екзогенних факторів та адаптуватися до змін
структури даних у процесі експлуатації.
1.5 Аналіз програмного забезпечення для прогнозування часових рядів
Для вирішення завдання щодо створення програмного модуля моделювання
і прогнозування динаміки регіонального споживання природного газу в Україні з
використанням сучасних інформаційних технологій та мов програмування
потрібно проаналізувати відповідні засоби, що надають можливість реалізувати
статистичні методи та методи машинного навчання прогнозування часових рядів.
40
Серед таких інструментів можна виділити кілька основних екосистем:
Python, R і AWS, які забезпечують комплексний набір сервісів та засобів для
прогнозування часових рядів.
Мова програмування Python є однією з найпопулярніших для прогнозування
часових рядів, оскільки поєднує простоту, гнучкість і велику кількість бібліотек:
від класичних статистичних методів до сучасних ML/Deep Learning підходів [23],
[24].
У мові R існує велика кількість пакетів для аналізу часових рядів [25].
Наприклад, одним з найпопулярніших є пакет forecast, в якому реалізовані як
класичні (ARIMA, експоненційне згладжування, модель Хольта-Вінтерса, та ін.).
Так і нещодавно розроблені методи прогнозування (моделі для згрупованих
часових рядів, рядів з кількома сезонними компонентами та ін.). Таке розмаїття
методів є і перевагою, і певним недоліком пакета forcast. Також важливим
недоліком є те, що всі реалізовані в forecast методи мають свої власні параметри
налаштування, і навіть досвідчені аналітики не застраховані від вибору
неправильного методу та/або набору параметрів для вирішення завдання.
Іншою екосистемою, що надає інструменти для прогнозування часових рядів
є AWS. AWS (Amazon Web Services) пропонує комплексний набір сервісів та
інструментів для прогнозування часових рядів, від готових рішень до глибокого
налаштування моделей [26], [27]. Це особливо важливо для організацій, які
потребують масштабованості, надійності та інтеграції з іншими хмарними
сервісами.
Оскільки у дослідження для розробки програмного модуля для моделювання
і прогнозування динаміки споживання природного газу використовуються
інструменти екосистеми Python, то розглянемо їх більш детально.
Для реалізації статистичних методів прогнозування часових рядів можна
використовувати такі бібліотеки Python (див., наприклад, [23], [24]):
1. Statsmodels – це основна бібліотека для класичного статистичного
моделювання, аналізу часових рядів та їх прогнозування. Бібліотека
пропонує широкі можливості для реалізації таких моделей, як ARIMA,
41
SARIMA, VAR та експоненційного згладжування (Exponential Smoothing). Її
доцільно використовувати, коли потрібна прозорість моделі та детальні
статистичні результати, такі як довірчі інтервали та діагностичні графіки.
2. Prophet — це відкрита бібліотека з прогнозування часових рядів із
можливістю налаштування, розроблена дослідницькою командою Meta
(раніше Facebook). Вона призначена для автоматичного прогнозування
щоденних, щотижневих або щомісячних даних, які мають сильні сезонні
ефекти та містять пропущені значення або викиди.
3. NeuralProphet – бібліотека реалізує гібридний підхід, що поєднує Prophet з
нейромережами.
4. Pmdarima – ця бібліотека призначена для автоматичної реалізації моделі
ARIMA. Вона автоматично знаходить найкращі гіперпараметри для цієї
моделі.
Для попередньої обробки даних та базового маніпулювання часовими рядами
незамінними є бібліотеки pandas та NumPy.
Для прогнозування часових рядів за допомогою методів машинного
навчання, зокрема глибокого навчання, можна використовувати такі бібліотеки
Python (див., наприклад, [23], [24]):
1. Загальні бібліотеки машинного навчання:
Scikit-learn – ця бібліотека не має вбудованих моделей, специфічних для
часових рядів (вона працює з незалежними вибірками), але її регресійні
моделі (наприклад, лінійна регресія, випадковий ліс, градієнтний бустинг)
можна використовувати для прогнозування часових рядів за допомогою
спеціальних методів, таких як створення лагованих ознак;
XGBoost / LightGBM / skforecast – це спеціалізовані бібліотеки
реалізують алгоритми градієнтного бустингу та є досить ефективними для
прогнозування часових рядів, особливо коли дані мають складні нелінійні
залежності та зовнішні змінні (екзогенні ознаки).
2. Спеціалізовані бібліотеки машинного та глибокого навчання:
42
Darts – ця бібліотека пропонує єдиний, зручний інтерфейс, подібний
до scikit-learn, для широкого спектру моделей: від класичних (ARIMA,
Prophet) до глибокого навчання (RNN, LSTM, TCN, трансформери), а
також спрощує тестування моделей та об'єднання прогнозів;
Sktime – ця бібліотека розроблена з урахуванням сумісності з scikit-learn
API і надає уніфікований фреймворк не тільки для прогнозування, але й
для класифікації та кластеризації часових рядів;
TensorFlow/Keras та PyTorch Forecasting – ці бібліотеки і надбудови
призначені для вирішення завдань глибокого навчання, особливо з
великими наборами даних, при цьому використовуються фреймворки
TensorFlow та PyTorch, які спрощують роботу з архітектурами глибокого
навчання, такими як LSTM, GRU, Transformer-архітектури з GPU-
прискоренням.
Окрім того, для роботи з часовими рядами потрібні інструменти, що
забезпечують зберігання даних, а також реалізують певну автоматизацію
налаштування параметрів у методах машинного навчання.
Спеціалізовані системи керування базами даних для роботи з часовими
рядами:
TimescaleDB – це розширення з відкритим кодом для реляційної системи
керування базами даних PostgreSQL, яке оптимізує її для ефективного
зберігання та аналізу даних часових рядів (time-series data). Замість того,
щоб бути окремою базою даних, вона працює як надбудова над існуючим
екземпляром PostgreSQL, використовуючи всю його надійність, сумісність
з ACID та екосистему інструментів [28], [29];
InfluxDB 3.0 – це останнє покоління хмарно-орієнтованої (cloud-native)
бази даних часових рядів (TSDB) із відкритим кодом від InfluxData, яка
призначена для забезпечення значно вищої продуктивності,
масштабованості та ефективності зберігання даних порівняно з
попередніми версіями [28]-[30];
43
Apache Kafka – є фундаментальною платформою для побудови
масштабованих, відмовостійких конвеєрів обробки часових даних у
реальному часі, що лежить в основі систем моніторингу, IoT та фінансової
аналітики. Вана використовується як надійний, високопродуктивний
транспортний механізм і центральний хаб даних для систем обробки
потокових часових рядів [31].
Інструменти AutoML – це фреймворки, що автоматизують вибір, побудову
та параметризацію моделі машинного навчання, а також надають методи та процеси
для прискорення дослідження та прогнозування [32]:
TransmogrifAI – бібліотека, побудована на мові Scala та фреймворку
SparkML, що автоматизує ключові завдання машинного навчання, зокрема
забезпечує очищення даних, розробку функцій та вибір моделі для
досягнення хорошої продуктивності моделі та полегшення подальшого
дослідження та ітерації;
AutoGluon-TimeSeries – це відкрита бібліотека для розробників додатків
машинного навчання від Amazon Web Services (AWS), яка спрощує
використання та розширення AutoML і дозволяє досягати найвищої
точності прогнозів за допомогою сучасних методів глибокого навчання без
спеціальних знань;
DataRobot – це платформа, яка використовує AutoML для швидкого
створення точних прогнозних моделей і дозволяє бізнес-аналітикам
створювати прогнозну аналітику без знань машинного навчання або
програмування.
Висновки до розділу 1
У межах розділу було проведено аналіз актуальних публікацій і досліджень з
прогнозування часових рядів. Було виявлено основні тенденції і перспективи
розвитку в цій галузі науки. Зокрема дослідження вказують на перехід від
статистичних методів прогнозування часових рядів і методів машинного навчання
44
до використання моделей глибокого навчання, включаючи рекурентні нейронні
мережі та великі мовні моделі. Ці нововвведення не оминули і сферу енергетики,
зокрема задачі прогнозування споживання природного газу.
У підрозділах 1.2 і 1.4 було сформульовано задачу прогнозування часових
рядів, дано класифікацію цих задач, проаналізовано і систематизовано найбільш
популярні підходи, методи і моделі до їх вирішення. Так статистичні моделі
показали високу інтерпретованість результатів і стійкість проти викидів і
пропущених значень у вхідних даних, але для коректної роботи потребують
стаціонарності часового ряду. У свою чергу, моделі машинного навчання
ефективно опрацьовують великі масиви даних, здатні виявляти нелінійні
залежності і залежності між членами довгих послідовностей, але, у порівнянні зі
статистичними методами, мають гіршу інтерпретованість. Ансамблеві методи
прогнозування часових рядів нівелюють недоліки обох підходів і об’єднують їх
переваги, але поступаються найкращим моделям глибокого навчання.
У розділі виокремлено основні причини важливості впровадження моделей
прогнозування часових рядів у програмні продукти компаній, що працюють у сфері
газопостачання. Галузь є критичною для нормального функціонування вітчизняної
промисловості і забезпечення енергією і теплом побутових споживачів. Наслідки
військового стану сильно впливають на складність прогнозування і збільшують
кількість факторів, від яких залежить значення цільової змінної об’єму
споживання, змушуючи створювати моделі з властивістю швидкої адаптації до
появи нових ознак і загального дрейфу даних.
Основними інструментами для програмної реалізації описаних методів
прогнозування часових рядів є мови програмування R і Python та середовище для
хмарних обчислень AWS. R містить широкий вибір пакетів, в яких переважають
статистичні моделі прогнозування. Python є найбільш універсальним засобом для
реалізації проектів, які потребують розробки моделей прогнозування часових
рядів. Основною перевагою Python є велика кількість бібліотек і фрейморків, які
реалізують як статистичні моделі прогнозування часових рядів, так і моделі
машинного навчання, а також ансамблеві методи. AWS є надійним варіантом для
45
складних і високонавантажених систем з можливою інтеграцією з різними
хмарними сервісами.
У результаті можна зробити висновок, що побудова адаптивних моделей та
розробка методів моделювання та прогнозування динаміки регіонально
структурованого споживання природного газу на основі даних газотранспортної
системи України, а також розробка відповідного програмного модуля, що їх
реалізує, є актуальною проблемою і відповідає технічним та економічним викликам
сьогодення.
46
2 АНАЛІТИЧНА ОБРОБКА ЧАСОВИХ РЯДІВ СПОЖИВАННЯ
ПРИРОДНОГО ГАЗУ
2.1 Опис вихідних даних та їх джерел
Вихідні дані для моделювання і прогнозування динаміки споживання
природного газу являють собою дві основні змінні і дві допоміжні змінні.
Основними змінними є об’єм споживання газу за певну добу ( ) і середню
температуру повітря в цей день (). Об’єм споживання природного газу за добу
вимірюється в тисячах кубічних метрів, а температура повітря в градусах Цельсія.
Кожній такій парі ( , ) вимірювань відповідає дата замірів ( ) і об’єкт
(газорозподільна станція) ( ), у географічних межах якого вимірюється
температура повітря і об’єм споживання.
Джерелом даних об’єму споживання природного газу в конкретній точці у
конкретний день (дату) є база даних ТОВ «Оператор ГТС України» [33], яка має
обмежений доступ. Фрагмент головної сторінки ТОВ «Оператор ГТС України»
представлено на рис. 2.1. ТОВ «Оператор ГТС України» – природна монополія, яка
забезпечує транспортування природного газу для замовників послуг з України та
країн Європи.
Рисунок 2.1 – Фрагмент головної сторінки ТОВ «Оператор ГТС України» [33]
47
Товариство було створене в 2019 році з метою виконання міжнародних
зобов’язань перед Енергетичним Співтовариством щодо забезпечення
незалежності оператора газотранспортної системи України.
Починаючи з 1 січня 2020 року, ТОВ «Оператор ГТС України» є
сертифікованим оператором газотранспортної системи України і є повністю
незалежним від вертикально-інтегрованих підприємств. 27 жовтня 2023 – в ході
виконання корпоративної реформи 100% частки у статутному капіталі ТОВ
«ОГТСУ» передано Міністерству енергетики України [33].
Технічні вимоги розповсюджуються на організацію надання/отримання
даних ТОВ «Оператор ГТС України» про обсяг та фізико-хімічні показники газу в
точках входу та точках виходу до/з газотранспортної системи за стандартом AS4.
Стандарт AS4 гарантує високу безпеку передачі файлів та повідомлень,
використовує багаторівневе шифрування даних, підтримує сучасні алгоритми
забезпечення криптографічного захисту інформації [34].
Вимоги до функціювання системи надання/отримання даних [34]:
1. Система функціонує цілодобово;
2. Формат файлів для передачі даних про фізико-хімічні показники газу –
XLS(Х) або PDF;
3. Формат файлів для передачі даних про обсяг газу – архів ZIP або CAB;
4. Формат файлів у середині архіву – Hostlib;
5. Файли Hostlib повинні містити погодинні дані про обсяг газу за поточний
місяць.
Дані температури повітря отримуються на основі координат газорозподільної
станції і завантажуються через API weatherapi.
Weather API – один з найкращих API погоди та геолокації, якому довіряють
понад 750 000 користувачів у всьому світі.
Цей ресурс надає можливість користувачам інтегрувати дані про погоду з
відкритим кодом [35].
Фрагмент головної сторінки сайту weatherapi представлено на рис. 2.2.
48
Рисунок 2.2 – Фрагмент головної сторінки сайту weatherapi [35]
2.2 Методика збирання, підготовки та очищення даних
Процес збору і формування вихідних даних складається з чотирьох базових
кроків:
1. Формування масиву даних температури повітря;
2. Формування масиву даних об’ємів споживання природного газу;
3. Вибір з двох масивів потрібної множини точок (стовпців);
4. Об’єднання цих масивів в один масив.
Процес завантаження даних про температуру повітря є циклічним. За
температуру у вказаний день вважається середньодобова температура повітря за
цей день у точці її вимірювання. На кожній ітерації циклу заповнюється наступний
стовпець датафрейма. Кожній газорозподільній станції відповідає один стовпець.
У зв’язку з обмеженням по кількості запитів за один виклик було створену сітку
дат. Отже, за одну підітерацію циклу отримуються дані температури повітря у
певній точці за один місяць. У результаті буде отримано датафрейм, в якому
кількість стовпців дорівнює кількості газорозподільних станцій, а кількість рядків
дорівнює кількості днів вимірювання. На рис. 2.3 представлено код на мові Python
для формування датафрейму з вхідними даними щодо об’єму споживання
природного газу за газорозподільними станціями та температури повітря.
49
Рисунок 2.3 – Фрагмент код для формування датафрейму вхідних даних
API запит містить декілька полів: lati і longti – це широта і довгота відповідно,
start_ddate, end_ddate – початкова і кінцева дата діапазону взяття середньодобової
температури повітря. На рис. 2.4. представлена частина датафрейму з даними
температури повітря.
Рисунок 2.4 – Частина датафрейму з даними температури повітря
50
Дані подобового споживання природоного газу отримано з бази даних ТОВ
«Оператор ГТС України».
Початковий масив являє собою таблицю з трьох стовпців. Дата, об’єкт і
значення вимірювання. Першочергово було виявлено станції, для яких кількість
вимірювань (рядків) було меншою за довжину періоду вимірювань у днях. Як
виявилося, переважна більшість з них або були промисловими або повністю
припинили своє функціонування. Такий висновок було зроблено на основі дат
останніх спостережень і дат останніх спостережень, де споживання було
ненульовим. Географічно, такі станції переважно знаходилися в межах тимчасово
окупованих територій України. Частина станцій перестали бути незалежними і
приєдналися до інших, зазвичай більших станцій. Залишаються лише повністю
заповнені числами (вимірювань) станції, навіть якщо ці числа це нулі.
Вибір станцій для здійснення прогнозу здійснюється на основі кореляційного
аналізу. Граничним значенням рівня кореляції між споживанням газу і
температурою повітря було 0.8, тобто:
∑
=1( − ?̅?)( − )
| | > 0.8,
√∑
=1( 2
− ?̅?) ∑( − )2
де
= (1, 2, … , ) – ряд середньодобових температур повітря,
= (1 , 2 , … , ) – ряд подобових об’ємів споживань природного газу,
?̅? – середнє значення ряду середньодобових температур повітря, –
середній об’єм подобового споживанню природного газу.
Все що менше цього значення не входить у фінальний набір даних. Оскільки
для погодозалежних станцій залежність між споживанням і температурою повітря
є строго обернено пропорційною, а для погодонезалежних близька до нуля, то
фактично граничним значенням було -0.8.
У залежності від потреб диспетчерських служб обирається підмножина точок
за певним критерієм. Це можуть бути область, група областей (регіон, система),
51
станції в межах деякого лінійно виробничого управління магістральних
газопроводів (ЛВУМГ), проммайданчика, вся Україна одразу тощо.
Далі кожному із стовпців, що залишилися після первинної фільтрації
необхідно співставити відповідний стовпець з даними температури повітря у цій
точці. Кількість точок з відомим споживанням більша за кількість точок з відомими
координатами і відповідно відомою температурою повітря. Тому для точок
споживання з невідомою температурою повітря береться температура станції у
відповідному обласному центрі або найближчій до нього точці, якщо обласний
центр не має власної станції. Після цього створюється фінальний датафрейм, де
кількість рядків дорівнює тривалості вимірювань у днях, а кількість стовпців 2m+2,
де m – це кількість газорозподільних станцій, по яким проводиться прогнозування
і кожній станції відповідає два стовпця: один показує дані подобових об’ємів
споживання природного газу, а інший – температуру повітря в цій точці. Перший
стовпець – це дати, а останній – сума споживань всіх обраних газорозподільних
станцій. На рис. 2.5 представлено фрагмент фінального датафрейма з даними
температури і споживання в усіх точках Черкаської області.
Рисунок 2.5 – Фрагмент фінального датафрейма з даними температури і
споживання в усіх точках Черкаської області
Спочатку всі вищезгадані кроки були пройдені для формування вхідної
таблиці для Черкаської області. Потім на основі цього, було створено єдиний
пайплайн для формування вихідної об’єднаної таблиці всіх погодозалежних
станцій для будь-якої обраної користувачем області.
52
2.3. Аналітична обробка із застосуванням статистичних і машинних
методів
Прогнозування споживання природного газу на наступні дні буде
здійснюватися на основі архівних даних про споживання газу, про температуру
повітря та прогнозі погоди на необхідну кількість днів вперед. У дослідженні
випробувано два типи моделей: модель часових рядів (ARIMAX) і рекурентна
нейронна мережа типу LSTM.
Розглянемо більш детально основні підходи до використання обох моделей
для прогнозування споживання природного газу, що були реалізовані в межах
дослідження.
2.3.1 Застосування моделі часових рядів ARIMAX
ARIMAX – це модель часового ряду, яка приймає на вхід часовий ряд з
екзогенною змінною (див., наприклад, [36]). У випадку задачі прогнозування
подобових об’ємів споживання природного газу екзогенною змінною буде
температура повітря у заданій точці. Оскільки даний тип моделі приймає на вхід
одразу всю послідовність, то прогнозування далеко за межами вхідного часового
проміжку не буде мати сенсу. Тому для кожного прогнозу на декілька наступних
днів необхідно перезапускати процес навчання на новому вхідному часовому ряді,
для якого наступним днем (лагом) після останнього вхідного буде перший вихідний
(спрогнозований) [36]:
() = (, , , , , ) =
(2.1)
= + ∑ ∆
( − ) + ∑ ( − ) + ∑ ( − ) + (),
=1 =1 =1
де
, , , – параметри моделі, які отримуються в результаті оптимізації
функціоналу втрат,
() – значення часового ряду (ендогенного сигналу) у час ,
53
() – значення екзогенного сигналу в момент часу ,
() – білий шум,
∆– оператор різниці порядку , тобто послідовне взяття s різниць першого
порядку – спочатку від часового ряду, потім від отриманих різниць першого
порядку, потім від отриманих різниць другого порядку тощо, наприклад:
∆1() = () − ( − 1), ∆2() = ∆1() − ∆1( − 1),
– максимальний лаг ендогенного фактору для моделі,
– максимальний лаг екзогенного фактору для моделі,
– максимальний лаг шуму для моделі.
Лаг – це попереднє значення часового ряду, тобто якщо поточне значення
ряду в момент часу і лаг дорівнює , то в момент часу − значення ряду буде
−.
У програмній реалізації даної моделі буде використовуватися клас моделей
SARIMAX, але всі сезонні компоненти в ній будуть дорівнювати нулю (п. 3.1.1).
Тобто це всеодно буде модель ARIMAX. Для SARIMAX моделі сезони мають
послідовно змінювати один одного і їх має бути принаймні три. Для рядів
споживання природного газу умову послідовної зміни задовольняє довжина сезону
в один рік. Для здійснення прогнозу на основі моделі з сезонною компонентою
архівні дані мають недостатню глибину вхідних даних (не більше трьох років) і
сезони зміщаються відносно один одного. Тому, можна зробити висновок, що
додавання до моделі сезонної компоненти в даній задачі є недоцільним.
Дана модель не підтримує одночасний прогноз декількох значень поспіль.
Тому прогнози на два дні вперед і більше базуватимуться на попередніх прогнозах,
при цьому, у середньому, з кожним днем точність прогнозу буде зменшуватися.
У межах задачі прогнозування споживання природного газу для Черкаської
області на основі ARIMAX-моделі було використано два основних підходи до
форми вхідних даних.
У першому з підходів прогноз здійснюється для кожної з 42 газорозподільних
станцій окремо. Потім вираховується сума цих прогнозів і порівнюється з реальною
54
сумою (останнім стовпцем об’єднаного датафрейма (див. п. 2.2)). Даний процес є
циклічним. На кожній ітерації циклу робиться прогноз споживання газу для певної
станції на певний період вперед. На кожній підітерації для конкретої станції
робиться прогноз на проміжок повного періоду. Довжина кожного такого проміжку
визначаєтья завчасно.
У другому підході одразу в якості вхідного ряду береться сума споживань усіх
точок області (останній стовпець датафрейму) і прогноз робиться за алгоритмом
аналогічним тому, який використовуються у першому підході, проте лише для
однієї точки (станції).
2.3.2 Застосування рекурентної нейронної мережі LSTM
Класичні нейронні мережі прямого поширення не здатні ефективно
обробляти послідовні дані, де важливий порядок елементів або довгострокові
залежності. Для задач, у яких інформація з попередніх кроків впливає на обробку
поточних даних, звичайні мережі не зберігають контекст.
Саме з цією метою були розроблені рекурентні нейронні мережі (RNN), які
завдяки рекурентним зв’язкам дозволяють моделювати часові залежності та
накопичувати інформацію про попередні стани послідовності.
Рекурентні нейронні мережі (RNN) – це клас штучних нейронних мереж,
спеціально розроблених для обробки послідовних даних, де порядок елементів має
значення. На відміну від звичайних багатошарових персептронів, які припускають
незалежність між вхідними спостереженнями, RNN містять механізм зворотних
зв’язків, що дозволяє моделі зберігати інформацію про попередні стани та
використовувати її при обробці наступних елементів послідовності.
У найпростішому варіанті RNN складається з шару прихованих нейронів,
стан яких оновлюється на кожному кроці послідовності (див., наприклад, [37])
Нехай – вхід мережі у момент часу , ℎ – стан прихованого шару, а –
вихід мережі. Тоді оновлення стану мережі визначається рекурентним
співвідношенням:
55
ℎ = (ℎ + ℎℎℎ−1 + ℎ),
де ℎ – матриця ваг між входом мережі і прихованим шаром,
ℎℎ – матриця рекурентних зв’язків,
ℎ – зсув,
(·) – нелінійна функція активації (зазвичай tanh або ReLu).
Значення на виході мережі формується за співвідношенням:
= ℎℎ + ,
де ℎ – матриця ваг між прихованим шаром і виходом мережі, – зсув.
Отже, в кожний момент часу мережа враховує як поточний вхід, так і
контекст із попередніх кроків (рису. 2.6).
Рисунок 2.6 – Схема функціонування рекурентної нейронної мережі
RNN особливо ефективні в задачах, де дані мають часову або логічну
структуру:
аналіз часових рядів (прогнозування значень, класифікація сигналів);
обробка природної мови (мовне моделювання, машинний переклад);
розпізнавання мови;
генерація послідовностей (текст, музика);
обробка біомедичних та технічних сигналів.
Попри концептуальну простоту, класичні RNN важко тренувати на довгих
послідовностях. Під час поширення градієнта в часі (backpropagation through time,
BPTT) значення градієнтів можуть експоненційно зменшуватися або
збільшуватися, що призводить до двох проблем:
56
1) затухання градієнтів – мережа забуває далеку інформацію і не здатна
вловлювати довгострокові залежності;
2) вибух градієнтів – параметри можуть неконтрольовано зростати, що
ускладнює процес навчання.
Саме ці обмеження класичних RNN стимулювали появу покращених
архітектур, таких як LSTM та GRU, які використовують спеціальні механізми
керування пам’яттю.
Архітектура нейронної мережі Long Short-Term Memory (LSTM) є
розширенням класичних рекурентних нейронних мереж, спеціально розробленим
для подолання проблеми затухання та вибуху градієнтів під час навчання на довгих
послідовностях.
Модель LSTM була запропонована Гохрайтером і Шмідхубером (Hochreiter
& Schmidhuber, 1997) [38] і стала стандартом у задачах, де важливо враховувати
довготривалі залежності.
Ключовою особливістю LSTM є використання комірки пам’яті (cell state) та
системи керуючих механізмів – воріт (gates). Комірка пам’яті дозволяє інформації
передаватися майже без змін через велику кількість часових кроків, а ворота
регулюють, яку інформацію зберігати, оновлювати або видаляти. Завдяки цьому
LSTM здатна утримувати релевантні дані значно довше, ніж звичайна RNN.
LSTM-блок складається з трьох типів воріт та вектору стану комірки пам’яті.
Ворота забування (forget gate) визначають, яка частина попереднього стану
комірки пам’яті −1 повинна бути збережена:
= ( + ℎ−1 + ),
де (∙) – сигмоїдна функція активації:
1
() = −,
1 +
– матриця ваг між входом та forget gate,
– вхідні дані, матриця рекурентних зв’язків між попереднім прихованим
станом,
– матриця рекурентних зв’язків між попереднім прихованим станом ℎ−1
57
та forget gate,
ℎ−1 – попередній прихований стан,
– вектор зсуву
Ворота оновлення або входу (input gate) контролюють, яка інформація буде
записана в комірку пам’яті:
= ( + ℎ−1 + ),
де – матриця ваг між входом та input gate,
– матриця рекурентних зв’язків між ℎ−1 і input gate,
– зсув
?̃? = ℎ( + ℎ−1 + ),
де
ℎ – гіперболічний тангенс:
− −
ℎ() =
+ −,
– матриця ваг між входом та блоком формування кандидата,
– матриця ваг між ℎ−1 і блоком формування кандидата,
– зсув.
Оновлення стану комірки пам’яті здійснюється за формулою:
= ⊙ −1 + ⊙ ?̃?,
де ⊙ – операція покомпонентного множення.
Ворота виходу (output gate) визначають, яка частина оновленого стану
комірки пам’яті буде передана на вихід:
= ( + ℎ−1 + ),
ℎ = ⊙ tanh(),
де – матриця ваг між входом та output gate,
– матриця рекурентних зв’язків для output gate,
– зсув.
На рис. 2.7 представлено архітектуру LSTM-блоку.
58
Рисунок 2.7 – Архітектура LSTM-блоку [39]
Отже, LSTM-блок одночасно виконує збереження історії, обмежене
оновлення пам’яті та формування виходу — усе в одному рекурентному модулі.
В цілому, архітектура мережі LSTM має ряд переваг і недоліків у порівнянні
з іншими типами нейромереж.
Переваги нейромережі LSTM:
здатність моделювати довготривалі залежності;
стійкість до проблеми затухання і вибуху градієнтів;
ефективність у задачах з довгою чи нерівномірною структурою
послідовностей.
Недоліки нейромережі LSTM:
більша кількість параметрів порівняно з класичною RNN;
вища обчислювальна складність та час навчання;
інколи може бути перебільшеною для задач із короткими залежностями, де
достатньо спрощених моделей.
Використання мережі LSTM для прогнозування об’єму споживання
природного газу буде продемонстровано в п. 3.1.2.
59
Висновки до розділу 2
У даному розділі здійснено опис вхідних даних для моделювання і
прогнозування динаміки споживання природного газу, що являють собою дві
основні змінні і дві допоміжні змінні. Основними змінними є об’єм споживання
газу за певну добу і середню температуру повітря в цей день. Джерелом даних
об’єму споживання природного газу в конкретній точці у конкретний день (дату) є
база даних ТОВ «Оператор ГТС України», яка має обмежений доступ. Дані
температури повітря отримуються на основі координат газорозподільної станції і
завантажуються через API weatherapi.
У п. 2.2 детально розглянуто методику збирання, підготовки та очищення
вхідних даних, а також наведено фрагмент коду для формування датафрейму
вхідних даних на мові Python.
У дослідженні прогнозування споживання природного газу на наступні дні
здійснюється на основі архівних даних про споживання газу, про температуру
повітря та прогнозі погоди на необхідну кількість днів вперед. У дослідженні
випробувано два типи моделей: модель часових рядів ARIMAX і рекурентна
нейронна мережа типу LSTM, які описані у п. 2.3.
Вибір моделі для дослідження часових рядів ARIMAX обумовлений тим, що
у випадку задачі прогнозування подобових об’ємів споживання природного газу
містить екзогенну змінну, якою є температура повітря у заданій точці.
Вибір архітектури нейронної мережі LSTM, яка є розширенням класичних
рекурентних нейронних мереж, обумовлений тим, що в ній використовуються
спеціально розроблені механізми для подолання проблеми затухання та вибуху
градієнтів під час навчання на довгих послідовностях.
60
3 ПРОГРАМНИЙ МОДУЛЬ МОДЕЛЮВАННЯ І ПРОГНОЗУВАННЯ
ДИНАМІКИ РЕГІОНАЛЬНОГО СПОЖИВАННЯ ПРИРОДНОГО ГАЗУ
3.1 Побудва та обґрунтування програмної реалізації прогнозної моделі
споживання природного газу
Як було зазначено в п. 2.3, у межах дослідженні випробувано два типи
моделей: модель часових рядів ARIMAX і рекурентна нейронна мережа типу
LSTM.
Розглянемо основні підходи щодо програмної реалізації обох зазначених
моделей для прогнозування споживання природного газу на прикладі Черкаської
області в 2024 році.
3.1.1 Програмна реалізація моделі ARIMAX
У межах задачі прогнозування споживання природного газу для Черкаської
області ARIMAX моделлю було використано два основних підходи до форми
вхідних даних, описаних у п. 2.3.
У процесі розробки програмного модуля для обробки та аналізу
експериментальних даних споживання природного газу було використано
бібліотеку Pandas, яка є однією з найбільш поширених та потужних засобів роботи
з табличними даними у Python. Pandas забезпечує високий рівень гнучкості та
ефективності, що робить її стандартом у задачах аналізу даних, машинного
навчання та попередньої обробки великих масивів інформації.
Бібліотека Pandas надає два основних типи структур даних – Series та
DataFrame, які дозволяють зручно представляти одномірні та двовимірні дані
відповідно. Це дає можливість працювати з табличними даними так само просто,
як із структурами даних у традиційних електронних таблицях, але з набагато
вищою обчислювальною ефективністю та можливістю автоматизації складних
операцій.
Застосування бібліотеки Pandas було обрано з таких причин:
61
1. Зручність роботи з табличною структурою даних. Вхідні дані
дослідження мали формат таблиць із великою кількістю числових вимірювань.
DataFrame забезпечує інтуїтивний доступ до рядків, стовпців, підтаблиць та
окремих елементів, що значно спрощує реалізацію алгоритмів обробки.
2. Потужні інструменти для попередньої обробки даних. У задачі
прогнозування присутні операції фільтрації, агрегації, перетворення, нормалізації
та об’єднання даних. Pandas надає широкий спектр методів, які дозволяють
реалізувати ці операції компактно та ефективно.
3. Висока продуктивність для робіт із великими наборами даних.
Бібліотека Pandas побудована на базі бібліотеки NumPy і оптимізована для роботи
з числовими масивами, що дозволяє обробляти десятки тисяч рядків та колонок без
значних витрат часу. Це було критично важливо, оскільки початкові дані містили
велику кількість числових вимірювань для кожного об’єкта (станції).
4. Зручні інструменти імпорту та експорту даних. Pandas дозволяє легко
зчитувати та зберігати дані у форматах CSV, Excel, JSON тощо. Це спростило
роботу з вхідними файлами та подальший експорт результатів обробки даних.
5. Широке застосування у науковій та інженерній практиці. Pandas є
стандартом у галузях обробки даних і машинного навчання.
У роботі також була використана бібліотека Statsmodels, яка є
спеціалізованим інструментарієм для статистичного моделювання, аналізу часових
рядів та побудови економетричних моделей. На відміну від багатьох інших
бібліотек Python, орієнтованих переважно на машинне навчання (наприклад, scikit-
learn), Statsmodels забезпечує більш глибокий статистичний підхід, включаючи
точні методи оцінки параметрів, перевірку статистичних гіпотез, діагностику
моделей та доступ до класичних статистичних алгоритмів.
Одним із ключових застосувань Statsmodels у даному дослідженні було
моделювання часових рядів за допомогою класу SARIMAX, який реалізує моделі
ARIMA та їх розширення з екзогенними змінними (ARIMAX), а також підтримує
сезонність (SARIMA/SARIMAX).
Застосування бібліотеки Statsmodels було обрано з таких причин:
62
1. Підтримка моделей ARIMA, ARIMAX, SARIMA та SARIMAX. Клас
SARIMAX дозволяє побудувати широкий спектр моделей авторегресії та ковзного
середнього, включаючи:
ARIMA – стандартна модель часових рядів;
ARIMAX – ARIMA з екзогенними змінними;
SARIMA – сезонна ARIMA;
SARIMAX – сезонна ARIMA з екзогенними змінними.
2. Наявність інструментів для діагностики моделі. Statsmodels надає доступ
до тестів, важливих у роботі з часовими рядами, включаючи:
автокореляційні функції ACF та PACF;
тест Льюнга–Бокса для перевірки автокореляції;
аналіз залишків на предмет нормальності та гетероскедастичності.
Ця діагностика дозволила оцінити якість побудованих моделей та їх
відповідність припущенням.
3. Має доступ до розширених статистичних оцінок. Statsmodels реалізує
точні методи оцінювання параметрів (зокрема, метод максимальної
правдоподібності), а також надає детальні статистичні характеристики моделі:
стандартні похибки параметрів;
t-статистики;
p-значення;
інформаційні критерії AIC/BIC;
зведені таблиці результатів.
Це робить бібліотеку незамінною для формального статистичного аналізу, на
відміну від "чорних скриньок" деяких методів машинного навчання.
4. Гнучкість у налаштуванні параметрів моделі. Клас SARIMAX дозволяє
детально контролювати всі компоненти моделі – порядок авторегресії, порядок
інтегрування, порядок ковзного середнього, сезонні компоненти, включення
екзогенних змінних (exog), тип тренду тощо. Це було важливо, оскільки дані про
63
споживання природного газу могли містити приховані тренди або залежності, які
вимагали тонкої настройки моделі.
5. Наявність зручних методів прогнозування. Клас SARIMAXResults
дозволяє будувати:
однокрокові прогнози;
інтервальні прогнози з довірчими межами;
ретроспективні прогнозування (in-sample predictions).
Це забезпечило можливість детального аналізу точності прогнозування.
6. Поширеність у науково-статистичній спільноті. Бібліотека Statsmodels є
стандартним інструментом для економетрики, статистики та аналізу часових рядів,
тому його використання є методологічно виправданим.
На рис. 3.1 представлено фрагмент коду, де використано клас SARIMAX для
прогнозування споживання природного газу всіма газорозподільними станціями
Черкаської області і області в цілому впродовж зими 2024/2025 років.
Рисунок 3.1 – Фрагмент коду для прогнозування споживання газу всіх станцій
Черкаської області і області в цілому впродовж зими 2024/2025 року
У даному коді кожному стовпцю під номером k відповідає вхідний ряд
значень екзогенної змінної (температури повітря) X. Кожному стовпцю під
номером k+1 відповідає вхідний ряд значень ендогенної змінної (об’єму
споживання природного газу відповідною газорозподільною станцією). Оскільки
64
першим днем всієї вибірки є перше січня 2022 року, а першим днем валідаційного
набору буде перше грудня 2024 року, то верхньою межою тренувального зрізу буде
рядок номер 1065. За одну ітерацію внутрішнього циклу для певної станції буде
відбуватися прогноз на три дні вперед. Потім на наступні три дні. Дні різних
ітерецій не перетинаються між собою. Тому крок ітератора дорівнює три. Далі
створено об’єкт класу SARIMAX model з кортежем значень параметрів моделі
(1, 0, 0). Такому набору параметрів відповідає модель простої авторегресії.
Результати навчання моделі збережено у змінну results. X_future відповідають
значення екзогенної змінної (прогноз погоди) на наступні три дні. Змінні forecast і
predicted_values означають отримані в результаті прогнозу моделі результати. У
вектор vas на кожній ітерації додаються спрогнозовані значення, а у pas – середні
абсолютні відсоткові похибки (MAPE) за діапазон трьох днів. У змінну sum
додається сумарне споживання всіх газорозподільних станцій Черкаської області,
щоб порахувати MAPE для неї. На рис. 3.2 представлено список зі значеннями
похибки прогнозування по днях зимових місяців 2024-2025 років.
Рисунок 3.2 – Список зі значеннями похибки прогнозування по днях зимових
місяців 2024/2025 років.
Аналізуючи отримані похибки по днях можна зробити висновки, що якщо
розглядати їх трійками, як вони і були розбиті, то можна побачити, що найвища
точність буде у перших днів, а у наступних днях точність вже менша. Підтвердити
65
це можна взявши середнє і медіану похибок перших днів і порівняти їх з середнім
і медіаною по всіх днях одразу (рис. 3.3).
Рисунок 3.3 – Порівняння похибок різних днів прогнозу однієї моделі
Аналогічні розрахунки було проведено для ідентичного періоду на два дні
вперед на кожній ітерації внутрішнього циклу і на один (рис. 3.4).
Рисунок 3.4 – Точність прогнозу для моделі тільки на один день вперед
66
Фрагмент коду нижче демонструє середнє і медіани похибок за кожний
місяць зими окремо (рис. 3.5).
Рисунок 3.5 – Статистики похибок за грудень 2024 р., січень і лютий 2025 р.
Також реалізовано прогноз на ідентичний період, використовуючи в якості
вхідних даних лише ряд сумарного споживання газу всієї Черкаської області з
двома конфігураціями параметрів (рис. 3.6).
Рисунок 3.6 – Прогноз на основі сумарного споживання газу всієї Черкаської
області
67
Рисунок 3.7 – Прогноз на основі сумарного споживання Черкаської області
Коефіцієнт p у формулі (2.1) дорівнює 1, оскільки графік PACF (Partial
Autocorrelation Function) різко обривається піcля 1-2 ітерацій (рис. 3.8) і це значить,
що лагів ендогенної змінної буде 1 або максимум 2. Тобто на актуальні дані
впливають лише показники споживання за 1 або за 2 дні перед цим. Тому брати в
якості вхідних даних вимірювання за три дні і далі просто не має сенсу, оскільки
коефіцієнти перед ними в отриманому рівнянні лінійної регресії будуть майже
нулями. Разом з цим, як наслідок, доведеться витрачати зайві обчислювальні
ресурси і час [2, с. 144-148].
Рисунок 3.8 – Графік часткової автокореляції між лагами
68
На рис. 3.8 вісь y – рівень кореляції між лагами і − після того як
прибрали вплив усіх проміжних лагів (значень ряду), вісь x – лаги (k).
Оскільки коефіцієнти d і q у формулі (2.1) дорівнюють нулю, то це
еквівалентно звичайній авторегресії. Коефіцієнт q дорівнює нулю, тому що
залишки прогнозів моделі авторегресії не є корельованими. Це підтверджує графік
ACF (Autocorrelation Function) (графік частинної кореляції лагів), який показує
ступінь залежності ендогенної змінної від своїх значень у певну кількість днів
назад, якщо брати до уваги предметну область створюваної моделі (рис. 3.9).
Рисунок 3.9 – Графік автокореляції між лагами
На рис. 3.9 вісь y – кореляція між рядом і рядом зміщеним на k кроків, вісь x –
лаги (k).
Коефіцієнт i перетворює ряд значень у ряд різниць між сусідніми днями, що
робить його стаціонарним, але при цьому втрачається частина інформації.
Враховуючи, що ряди споживання природного газу в період опалювального сезону
є помітно нестаціонарними, що підтверджує p рівень значимості оцінки тесту Дікі-
Фулера на предмет нульової гіпотези про нестаціонарність ряду, то після
застосування до ряду оператора диференціювання першого порядку він стає більш
69
стабільним по збереженню з часом основних статистичних характеристик, що є
бажаною вимогою для точного прогнозу, і точність стає меншою, але відносно
малою (декілька десятих відсотка). При цьому швидкість навчання моделі
збільшується у 2,5-3 рази, що спричинено прискоренням чисельної оптимізації
функцій максимальної правдоподібності розподілу на кожній ітерації процесу
навчання. Отже, час прогнозу споживання природного газу для всієї України
зменшується в десятки разів, що дозволяє запускати процес навчання кожні 2-3-4
дні в залежності від поставленої задачі.
У випадку часових рядів з ендогенною і екзогенною змінною. Одна змінна
може впливати на іншу з деяким запізненням (зміщенням). Щоб знайти розмір
цього зміщення або переконатися у його відсутності будують cross-correlation
графік (рис. 3.10). Він показує кореляцію між ендогенною змінною і екзогенною
змінною зміщеною на різну кількість кроків назад.
Рисунок 3.10 – Графік кореляції між лагами ендогенної і екзогенної змінної
Графік на рисунку 3.10 показує, що зміщення зв’язку не спостерігається, при
цьому найвищий рівень кореляції у точці 0.
70
Побудуємо графік реального і спрогнозованого споживання природного газу
впродовж 2024 року (рис. 3.11), де по горизонталі відмічено номер дня року, а по
вертикалі об’єми споживання природного газу.
На рис. 3.12 представлено графік розподілу похибок прогнозування
впродовж 2024 року.
Рисунок 3.11 – Реальне споживання газу впродовж 2024 року і його прогноз
Рисунок 3.12 – Розподіл похибок прогнозування впродовж 2024 року
71
Розподіл похибок показує, що найбільші похибки спостерігаються у період
переходу з опалювального сезону на неопалювальний сезон і навпаки, а також
впродовж неопалювального сезону, коли стрибку у споживанні ніяк не корелюють
з температурою повітря і тому що метрика MAPE (Mean Absolute Percentage Error)
є дуже чутливою до близьких до нуля значень.
3.1.2 Програмна реалізація нейронної мережі типу LSTM
У рамках розробки моделей машинного навчання та нейронних мереж у даній
роботі використовувалася бібліотека TensorFlow – одна з найпоширеніших і
найпотужніших платформ для побудови, навчання та розгортання нейронних
мереж. TensorFlow забезпечує високий рівень гнучкості, підтримує роботу як на
центральних процесорах (CPU), так і на графічних процесорах (GPU), та включає
широкий набір інструментів для створення моделей різної складності – від простих
мереж прямого поширення до рекурентних архітектур (RNN, LSTM) та сучасних
глибоких моделей.
У роботі використовувався API TensorFlow Keras, який надає високорівневий
інтерфейс для побудови нейронних мереж, спрощує визначення архітектур та
процес навчання, зберігаючи при цьому можливість тонкого налаштування
моделей.
Застосування бібліотеки TensorFlow було обрано з таких причин:
1. Підтримка складних архітектур нейронних мереж. Бібліотека TensorFlow
надає готові реалізації багатьох типів шарів, включаючи Dense, Dropout,
Convolutional, а також рекурентні шари, такі як: SimpleRNN, LSTM, GRU.
2. Висока продуктивність та оптимізація обчислень. TensorFlow підтримує
апаратне прискорення навчання на GPU, що суттєво зменшує час обробки великих
наборів даних та прискорює навчання моделей. Навіть у випадках, коли навчання
відбувалося на CPU, TensorFlow забезпечує оптимізоване виконання матричних
операцій.
3. Зручний високорівневий API (Keras). Інтерфейс Keras дозволяє:
72
швидко створювати моделі у вигляді послідовності шарів (Sequential);
визначати більш складні архітектури через функціональний API;
легко налаштовувати навчання (оптимізатори, функції втрат, метрики);
виконувати ранню зупинку, зберігати ваги, будувати графіки навчання.
Завдяки цьому код моделей лишається компактним, читабельним і зручним
у супроводі.
4. Підтримка зворотного поширення похибки та автоматичного
диференціювання. Бібліотека TensorFlow автоматично обчислює похідні функцій
втрат відносно параметрів моделі, що дозволяє безкоштовно отримувати механізм
зворотного поширення помилки для мереж будь-якої складності. Це критично
важливо для навчання глибоких рекурентних мереж.
5. Вбудовані оптимізатори та функції втрат. Бібліотека TensorFlow надає
великий набір класичних оптимізаторів (SGD, Adam, RMSProp) та функцій втрат
(MSE, Binary Cross-Entropy, Categorical Cross-Entropy), що дозволяє швидко
адаптувати модель під конкретну задачу.
6. Інтеграція з іншими бібліотеками Python. TensorFlow працює разом із
бібліотеками Pandas, NumPy, Matplotlib, що дозволяє:
готувати дані у DataFrame;
конвертувати масиви в формати, придатні для мережі;
візуалізувати процес навчання та метрики.
7. Надійність, популярність і підтримка спільноти. TensorFlow – бібліотека
з відкритим кодом, яку підтримує Google та велика спільнота дослідників і
розробників. Її використання є загальноприйнятою практикою у наукових роботах,
особливо у сфері глибокого навчання, що робить вибір методологічно
виправданим.
Для побудови LSTM моделі прогнозування споживання природного газу
потрібно імпортувати необхідні шари з бібліотеки TensorFlow (рис. 3.13).
Визначимо характеристики вхідних параметрів мережі (рис. 3.14):
73
L – кількість днів з архівними значеннями температури повітря згідно з
даними прогнозу погоди і споживання газу;
H – кількість днів з відомими значеннями температури повітря згідно з
даними прогнозу погоди;
Fp – загальна кількість змінних з відомим архівними даними;
Ff – кількість змінних з відомими майбутніми значеннями.
Рисунок 3.13 – Імпорт необхідних шарів з бібліотеки TensorFlow
Рисунок 3.14 – Визначення розмірностей значень вхідних параметрів
Дана модель буде працювати як комбінація двох різних моделей: одна модель
буде аналізувати минулі значення обох змінних (inp_past) і використовуватиме
LSTM шар (рис. 3.15), а інша, яка складається з повнозв’язних шарів, буде
аналізувати майбутні значення температури повітря (прогноз погоди) (рис. 3.16).
Рисунок 3.15 – Конструювання архітектури LSTM частини моделі
Рисунок 3.16 – Конструювання архітектури Dense частини моделі
74
Потім вони об’єднаються в одну єдину модель (рис. 3.17).
Рисунок 3.17 – Об’єднання LSTM і Dense частин в цілісну модель
Далі визначаємо вихід моделі (рис. 3.18).
Рисунок 3.18 – Визначення виходу моделі
Створюємо об’єкт моделі і компілюємо її (рис. 3.19).
Рисунок 3.19 – Компіляція моделі
Рисунок 3.20 – Огляд архітектури моделі
75
Після цього формуємо датафрейм з даними по Черкаській області:
'ГРС Черкаси' – це температура повітря в Черкасах, а 'Сума' – сумарне споживання
прородного газу в Черкаській області (рис. 3.21).
Рисунок 3.21 – Формування масиву вхідних даних
Визначаємо тренувальну вибірку минулих значень змінних (рис. 3.22).
Рисунок 3.22 – Формування вибірки минулих значень змінних
Визначаємо тренувальну вибірку майбутніх значень температури повітря
(рис. 3.23).
Рисунок 3.23 – Формування вибірки майбутніх значень температури повітря
Визначаємо тренувальну вибірку майбутніх значень об’єму споживання
природнього газу (цільової змінної) (рис. 3.24).
Рисунок 3.24 – Формування вибірки майбутніх значень об’єму споживання газу
Далі перевіряємо розмірності і запускаємо навчання моделі (рис. 3.25).
76
Рисунок 3.25 – Перевірка розмірностей вхідних даних (тензорів) і запуск навчання
На рис. 3.26 x_pa – минулі значення змінних, x_fu – майбутні значення
температури повітря.
Рисунок 3.26 – Ініціалізація вхідних тензорів для тестування моделі
Проводимо тестування отриманої моделі (рис. 3.27).
Рисунок 3.27 – Тестування моделі
Виведемо частину спрогнозованих і реальних результатів для порівняння
(рис. 3.28).
У кожній трійці символів верхній рядок – це спрогнозовані значення,
середній – реальні, а нижній – значення похибки між ними.
77
Рисунок 3.28 – Порівняння реальних і спрогнозованих значень споживання газу
Виведемо значення похибок (у відсотках) по днях на період зимових місяців
2024/2025 р.р. (рис. 3.29) та їх загальне середнє і медіану (рис. 3.30).
Рисунок 3.29 – Розподіл похибок по днях на період зими 2024/2025 р.р.
78
Рисунок 3.30 – Статистики розподілу похибок у відсотках
На основі процесу збору і об’єднання даних для Черкаської області з
розділу 2.2 було створено функцію, яка збирає в єдиний датафрейм дані по середній
температурі повітря за добу, подобових об’ємах споживання природного газу усіх
газорозподільних станціях у межах області та сумарних об’ємах споживання всієї
області (рис. 3.31).
Рисунок 3.31 – Код функції для формування об’єднаного датафрейма, необхідних
для моделі даних по обраній області
79
Для зручності було створено функції, які дозволяють оцінити вплив викидів
у розподілі похибок (рис. 3.32). Вони рахують середнє або медіану розподілу
похибок без вказаної в аргументі кількості найбільших значень.
Рисунок 3.32 – Функція обрахунку середнього і медіани без найбільших значень
Для перевірки прогнозної моделі на актуальних даних було зроблено прогноз
на листопад 2025 року по окремих областях і Україні в цілому (рис. 3.33).
Рисунок 3.33 – Прогноз на листопад 2025 року по областях України
80
Продовження рисунку 3.33
81
На рис. 3.36 представлено графік порівняння реального споживання і
спрогнозованого для України на період листопада 2025 року.
Рисунок 3.36 – Графік порівняння реального споживання і спрогнозованого для
України на період листопада 2025 року
На рис. 3.37 представлено розподіл похибки прогнозу по днях листопада 2025
року, а на рис. 3.38 – статистики розподілу похибок прогнозу за листопад 2025 р. і
його другу половину.
82
Рисунок 3.37 – Розподіл похибки прогнозу по днях листопада 2025 року
Рисунок 3.38 – Статистики розподілу похибок прогнозу за листопад і його другу
половину
83
Одержана статистика показує збільшення точності у зв’язку з поступовим
входженням в опалювальний сезон. У перші дні опалювального сезону споживання
починає різко зростати і кожного року дата початку сезону різна і амплітуда
стрибків теж. Показники на другу половину листопада вже відповідають
показникам точності прогнозів на період минулої зими (2024-2025 р.р.).
3.2 Алгоритм використання програмного модуля для прогнозування
об’ємів споживання природного газу
Розроблений у п. 3.1 програмний модуль має різні варіанти експлуатації в
залежності від характеру поставленої задачі.
У розрізі прогнозування об’єму споживання природного газу характер задачі
визначається властивостями множини точок, для яких робиться прогноз і
характеристиками рядів, які визначають споживання окремих точок.
Якщо необхідно зробити прогноз споживання для великої області, то більш
раціонально буде будувати прогнозну модель, яка прийматиме на вхід один єдиний
ряд споживання і середню температурі в області прогнозування. Такий підхід
убезпечує від довгого і неефективного процесу навчання моделі. Мінусом даного
підходу буде неможливість вибрати географічну точку, температура повітря в якій,
описувала б температуру в межах усієї області прогнозування. Для подолання
такого роду проблем можна спробувати розділити досліджуваний регіон на
декілька підрегіонів і повторити загальну процедуру для кожного з них окремо.
Після цього знайти суму отриманих прогнозів.
Чим менша область прогнозування тим більш ймовірно можливо
використати другий підхід розподілу множини точок прогнозної області. В ньому
робиться прогноз для всіх газорозподільних станцій в межах області прогнозування
одночасно. Результатом буде сума отриманих прогнозів у вибраний день.
Перевагою даного підходу є абсолютна точність температури повітря для кожної
окремої точки.
84
Дані підходи до прогнозування є універсальними відносно обраної моделі
прогнозування.
Тип моделі прогнозування обирається в залежності від довжини горизонту
прогнозування. Для короткострокових прогнозів оптимальним буде використання
моделі часових рядів з екзогенною змінною типу ARIMAX, а для довгострокових,
краще використовувати рекурентні нейромережі типу LSTM.
Для прогнозів моделлю ARIMAX необхідно правильно визначити набір
гіперпараметрів, зокрема за допомогою тесту Дікі Фулера перевірити ряд на
стаціонарність. Якщо ряд стаціонарний, то гіперпараметр інтегрування i буде
дорівнювати 1, а вся трійка гіперпарметрів буде (1, 0, 0), інакше – (1, 1, 0).
Отримані результати можна завантажити в базу даних, а також в її аналоги з
інтерфейсом чи у відповідні внутрішні застосунки компанії.
Загальний алгоритм прогнозування об’ємів споживання природного газу в
залежності від задачі продемонстровано на рисунку 3.39.
85
Рисунок 3.39 – Блок-схема процесу прогнозування об’ємів споживання
природного газу у визначеній завданням області
86
3.3 Інтеграція результатів у практичне середовище
Основними користувачами програмного модуля прогнозування об’ємів
споживання природного газу будуть працівники диспетчерської служби Оператора
ГТС України. Вони будуть використовувати прогнози моделі для приблизних
передбачень, щоб розуміти ситуацію і динаміку об’ємів споживання в коротко,
середньо і довгостроковій перспективах. Для зручного користування застосунком
буде розроблено його версію з інтервейсом.
Інтеграція розробленого програмного модуля прогнозування об’ємів
споживання природного газу передбачає включення отриманих моделей та
алгоритмів у реальну інфраструктуру підприємства, що здійснює облік та
планування газоспоживання. Основною метою інтеграції є забезпечення
автоматичного, стабільного та своєчасного формування прогнозів, які можуть бути
використані у щоденних операційних процесах.
У практичному середовищі модуль працює у зв’язці з двома основними
джерелами даних.
1. База даних підприємства, з якої автоматично завантажуються історичні
дані про фактичне споживання природного газу. Підключення здійснюється через
REST API або прямі SQL-запити. Дані проходять попереднє очищення, агрегування
та нормалізацію.
2. Погодинні або добові кліматичні дані, які отримуються через API сервісу
WeatherAPI. Ці дані включають температуру повітря, яка є ключовим фактором, що
впливає на сезонність споживання природного газу. Оновлення метеорологічної
інформації виконується автоматично за запитом системи.
Система забезпечує синхронізацію часових міток двох джерел, що дозволяє
використовувати дані у вигляді єдиного узгодженого часового ряду.
Після інтеграції програмний модуль працює у автоматичному режимі
відповідно до налаштованого розкладу:
щоденний або погодинний запуск прогнозної моделі;
формування прогнозів на наступний день, кілька днів або тиждень;
87
збереження прогнозів у базі даних або передача їх у зовнішні системи.
Цей процес забезпечується через:
планувальник завдань;
бекенд-сервер, що викликає модель через REST-інтерфейс;
модуль повідомлень або інтерфейс адміністратора для контролю роботи.
Оскільки структура та динаміка споживання природного газу може
змінюватися з часом під впливом зовнішніх факторів (кліматичні зміни, зміни
поведінки споживачів, економічні умови, оновлення обладнання тощо), важливо
забезпечити постійну актуальність моделі прогнозування. Для цього програмний
модуль підтримує механізм регулярного перенавчання з урахуванням явища
дрейфу даних.
Для забезпечення стабільної роботи програмного модуля, його
відтворюваності та можливості швидкого розгортання у виробничому середовищі
передбачено використання механізмів CI/CD, а також системи оркестрації робочих
процесів Apache Airflow. Ці компоненти забезпечують повну автоматизацію
процесів збору даних, підготовки датасету, навчання моделі, генерації прогнозів та
їх інтеграції у прикладні системи підприємства.
3.4 Оцінювання ефективності прикладного рішення
Метою цього підрозділу є демонстрація практичної цінності, ефективності та
результативності розробленого програмного модуля прогнозування обсягів
споживання природного газу.
Оцінювання здійснюється не лише за формальними метриками точності,
розглянутими в аналітичній частині роботи, а й за сукупністю експлуатаційних,
технічних та організаційних показників, що визначають придатність системи до
реального використання.
Запропоноване рішення має низку важливих переваг:
1. Швидкість обробки даних. Автоматизований конвеєр дозволяє
формувати датасет, виконувати передобробку та генерувати прогноз у
88
межах кількох секунд або хвилин, що суттєво скорочує час підготовки
аналітичної інформації порівняно з ручними або напівавтоматичними
методами, які можуть вимагати годин.
2. Надійність та стабільність. Завдяки використанню CI/CD та Apache
Airflow система здатна працювати в безперервному режимі, гарантуючи
відтворюваність розрахунків і виключаючи людський фактор при
регулярному запуску процесів.
3. Зручність використання. Результати прогнозу можуть автоматично
передаватися в інформаційні системи підприємства (БД, REST API), що
усуває потребу у додаткових ручних операціях.
4. Масштабованість. Архітектура програмного модуля забезпечує
можливість швидкого переходу на більший обсяг даних, інші часові
горизонти прогнозування та додавання нових ознак без зміни загальної
схеми роботи.
Ефективність від впровадження програмного модуля обумовлена такими
факторами як:
1. Скорочення часу формування прогнозу порівняно з традиційними
офлайн-методами аналітики завдяки автоматизації етапів збору та
обробки даних;
2. Підвищення оперативності прийняття рішень, яке забезпечується
можливістю отримувати щоденні або погодинні прогнози без участі
оператора, а це, у свою чергу, дозволяє швидше реагувати на зміни
температури, що особливо важливо в пікові періоди споживання
природного газу;
3. Зменшення помилок, викликаних людським фактором. Автоматизація
кроків підготовки даних та передачі результатів до системи виключає
типові аналітичні та технічні помилки, що виникають при ручних
розрахунках;
89
4. Адаптація до довгострокових змін у структурі споживання за рахунок
регулярного перенавчання моделі, що мінімізує ефективність дрейфу
даних та покращує стабільність прогнозів у часі.
Ефективність розробленого рішення підтверджено через тестування на
архівних даних споживання природного газу та температурних показниках.
Система коректно опрацьовує періоди різких температурних коливань, часткові
пропуски у даних, значні сезонні варіації добових обсягів споживання газу.
У тестових сценаріях програмний модуль забезпечив стійке формування
прогнозів у режимі, максимально наближеному до реального виробничого
використання, включаючи інтеграцію з базою даних та регулярне оновлення
вхідних значень.
Також запровадження запропонованого програмного модуля може давати
ряд економічно-організаційних переваг:
оптимізація закупівлі природного газу за рахунок точніших прогнозів, що
дозволяє мінімізувати ризики і пов’язані з ними фінансові штрафи;
зменшення витрат на аналітичну обробку даних, оскільки всі операції
автоматизовані й не потребують постійної участі відповідного
спеціаліста;
покращення енергетичної ефективності та планування навантажень, що є
важливим фактором у роботі підприємств, які споживають великі обсяги
природного газу.
Проведене оцінювання показало, що розроблений програмний модуль
прогнозування споживання природного газу є ефективним, надійним та придатним
до практичного використання у виробничому середовищі. Система демонструє
високу швидкість обробки даних, стабільність роботи та здатність до
автоматизованого оновлення моделі, що забезпечує актуальність прогнозів у
довгостроковій перспективі.
Завдяки використанню сучасних інструментів автоматизації (CI/CD, Apache
Airflow) та механізму перенавчання модель здатна адаптуватися до змін у
90
статистичних характеристиках даних, що мінімізує вплив дрейфу та покращує
загальну якість прогнозування.
Практичні результати підтверджують, що впровадження описаного рішення
може забезпечити підприємству як аналітичні, так і економічні переваги, включно
зі зменшенням операційних витрат, підвищенням точності планування та
оптимізацією використання енергоресурсів.
3.5 Перспективи подальшого розвитку програмного модуля
Основним напрямом розширення функціоналу розробленого програмного
модуля прогнозування споживання природного газу є збільшення можливих
варіантів об’єднання множини газорозподільних станцій в кластери в залежності
від їх призначення, географічного положення тощо.
Як вже було згадано в розділі 2 газорозподільні станції можуть об’єднуватися
не лише в межах області чи групи областей, але і в лінійні виробничі об’єднання
управління магістральними газопроводами (ЛВУМГ), промислові майданчики,
системи або в групу навколо компресорної станції. Для кожного із перелічених
сценаріїв необхідний окремий алгоритм збору даних і формування єдиного
датафрейму. В залежності від частки непогодозалежних станцій у обраному
кластері будуть обиратися різні порогові значення рівня кореляції між об’ємом
споживанням природоного газу і температурою повітря для конкретної станції.
Архітектура математичних моделей розробленого програмного модуля
потенційно залишатиметься актуальною для будь-якої задачі прогнозування
часових рядів, де є одна екзогенна змінна і одна ендогенна змінна. У сфері аналізу
і оптимізації роботи газотранспортної системи України є безліч задач, які
задовольняють даній вимозі. Об’єм споживання природного газу за добу – це один
з близько тисячі можливих параметрів. Прогнозування майбутніх значень цих
параметрів в залежності від пов’заних з ними змінних в коротко чи довгостроковій
перспективі може позитивно вплинути на результати компанії.
91
Також розроблений програмний модуль може бути суттєво розширений
завдяки використанню більш сучасних або спеціалізованих алгоритмів машинного
навчання, нейронних мереж та методів аналізу часових рядів. Нижче наведено
потенційні напрямки розвитку системи.
Окрім LSTM, існує кілька типів нейронних мереж, які можуть бути
актуальними для задач прогнозування у сфері траспортування природного газу:
GRU (Gated Recurrent Unit): спрощена версія LSTM з меншою кількістю
параметрів, яка навчається швидше та може бути ефективнішою на
невеликих вибірках або на даних із короткими залежностями;
Bidirectional RNN/BiLSTM/BiGRU: двонаправлені мережі, що можуть
враховувати залежності як у минулому, так і у майбутньому відносно
прогнозованої точки, що часто покращує якість класифікації сигналів;
1D-СNN (одновимірні згорткові мережі): ефективні для виділення
локальних особливостей у часових рядах та часто використовуються як
попередній шар перед LSTM;
Transformers (Attention-моделі): сучасні архітектури, що демонструють
високу ефективність у задачах обробки послідовностей, зокрема завдяки
механізму уваги (attention), який дозволяє моделі фокусуватися на
релевантних частинах даних без втрати довготривалих залежностей.
Використання цих архітектур може підвищити точність моделі
прогнозування споживання природного газу та прискорити її роботу.
Для певних типів даних або підзадач система може бути доповнена
традиційними алгоритмами машинного навчання:
Random Forest, Gradient Boosting, XGBoost, LightGBM: ці моделі добре
працюють зі статичними характеристиками сигналів (наприклад,
статистичними ознаками, фільтраційними коефіцієнтами, спектральними
ознаками);
Лінійні моделі (Logistic Regression, SVM): ці моделі підходять для випадків,
коли дані можуть бути перетворені у вигляді ознак фіксованої довжини;
92
алгоримти кластеризації (k-means, DBSCAN): ці алгоритми можна
використовувати для попереднього групування сигналів, виявлення
прихованих закономірностей або аномалій.
Ці алгоритми мають меншу обчислювальну складність і можуть бути
використані у випадках обмежених ресурсів.
Окрім моделі ARIMAX, можуть бути застосовані інші моделі часових рядів,
більш пристосовані до специфіки даних:
SARIMA / SARIMAX із сезонністю: ці моделі підтримують кількох рівнів
сезонності, що може покращити точність для циклічних процесів;
VAR (Vector Autoregression): ця модель підходить для багатовимірних
часових рядів, де кілька параметрів взаємодіють між собою;
Prophet (Facebook): модель із простою інтерпретацією, яка добре працює з
нерівномірними та неповними рядами;
State Space Models / Kalman Filter: ці моделі призначені для систем із
шумними вимірюваннями або фізично обґрунтованими закономірностями.
Додавання таких моделей дозволить адаптувати програмний модуль до
ширшого кола задач.
Потенційне розширення і ускладення процесу обробки вхідних даних може
підвищити точність кінцевого прогнозу.
Покращення програмного модуля прогнозування споживання природного
газу може включати:
автоматичне виявлення та заповнення пропусків у даних;
спектральний аналіз (FFT, вейвлет-перетворення);
генерацію нових ознак (feature engineering);
нормалізацію значень різними методами (MinMax, RobustScaler,
PowerTransform).
Усі ці підходи здатні суттєво впливати на якість прогнозів споживання
природного газу.
93
Висновки до розділу 3
У даному розділі побудована та обґрунтована програмна реалізація
прогнозної моделі споживання природного газу, розглянуто основні підходи щодо
програмної реалізації двох типів моделей: моделі часових рядів ARIMAX і
рекурентної нейронної мережі типу LSTM для прогнозування споживання
природного газу на прикладі Черкаської області в 2024/2025 роках.
У процесі реалізації моделі часових рядів ARIMAX програмного модуля для
обробки та аналізу експериментальних даних споживання природного газу було
використано бібліотеки Pandas, Statsmodels мови Python. При цьому було
обґрунтовано доцільність їх використання при написанні коду програмного модуля
для прогнозування споживання газу всіх станцій Черкаської області і області в
цілому впродовж зими 2024 року.
При програмній реалізації штучної нейронної мережі типу LSTM для моделі
прогнозування споживання природного газу було використано бібліотеку
TensorFlow, яка є однією з найпоширеніших і найпотужніших платформ для
побудови, навчання та розгортання нейронних мереж.
Оскільки розроблений програмний модуль має різні варіанти експлуатації в
залежності від характеру поставленої задачі, то в п. 3.2 було запропоновано
алгоритм його використання для прогнозування об’ємів споживання природного
газу.
Інтеграція розробленого програмного модуля прогнозування об’ємів
споживання природного газу, яка розглянута в п. 3.3, передбачає включення
отриманих моделей та алгоритмів у реальну інфраструктуру підприємства, що
здійснює облік та планування газоспоживання. Основною метою інтеграції є
забезпечення автоматичного, стабільного та своєчасного формування прогнозів,
які можуть бути використані у щоденних операційних процесах.
Проведене у п. 3.4 оцінювання показало, що розроблений програмний модуль
прогнозування споживання природного газу є ефективним, надійним та придатним
до практичного використання у виробничому середовищі. Впровадження
94
описаного програмного рішення у практичну діяльність відповідного підприємства
може забезпечити як аналітичні, так і економічні переваги, включно зі зменшенням
операційних витрат, підвищенням точності планування та оптимізацією
використання енергоресурсів.
У п. 3.5 наведено напрями розвитку програмного модуля прогнозування
споживання природного газу, що дозволять підвищити точність прогнозування,
масштабованість системи та можливість адаптації до нових типів даних і задач. Це
зробить розроблену систему більш універсальною та конкурентоспроможною у
реальних умовах застосування.
95
ВИСНОВКИ
У результаті виконання кваліфікаційної роботи магістра було вирішено всі
поставлені завдання.
1. Проведено аналіз досліджень і публікацій, пов’язаних як з теоретичними
основами прогнозування часових рядів так і з практичним використанням
відповідних моделей і методів у різних галузях промисловості, економіки,
медицини, транспортування. Основні типи задач прогнозування часових рядів
систематизовано за такими критеріями як: характер основних ознак об'єкту
дослідження, число ознак об'єкту дослідження, час випередження при
прогнозуванні. Проаналізовано переваги і недоліки статистичних методів та
методів машинного навчання при прогнозуванні часових рядів, а також
перспективи їх розвитку.
2. Загальний огляд предметної області продемонстрував актуальні підходи до
вирішення прикладних задач прогнозування у сфері газотранспорту і
газопостачання у різних країнах. Найпопулярнішим вибором з найкращими
показниками метрик точності прогнозу є модель глибокого навчання LSTM.
Лінійні моделі поступово втрачають свою актуальність, але ARIMA все ще
залишається ефективним рішенням для задач короткострокового планування.
Перспективним напрямком досліджень вважається перенесення алгоритмів
обробки природної мови і комп’ютерного зору на задачі прогнозування часових
рядів, зокрема і для прогнозу об’ємів споживання природного газу з
газорозподільних станцій.
3. У роботі побудовано адаптивні моделі прогнозування споживання
природного газу, які є стійкими до дрейфу даних і розріджених часових рядів.
Модель часових рядів ARIMAX з екзогенною змінною середньої температури
повітря за добу використовується для прогнозу на визначену кількість днів вперед
на основі даних прогнозу погоди. В залежності від наявності чи відсутності
стаціонарності у вхідного ряду обирається відповідний набір значень
гіперпараметрів. Прогноз для окремих областей і України в цілому робиться двома
96
різними підходами в залежності кількості газорозподільних станцій в її межах.
Тренувальна вибірка моделі регулярно оновлюється доданими до неї значеннями
об’єму споживання газу минулих днів. Проблему різкого падіння точності моделі
ARIMAX з часом вирішено розробленням рекурентної нейронної мережі типу
LSTM. Вона приймає на вхід обмежену кількість аргументів і не потребує
постійного перенавчання. Запропоновані моделі у комплексі дають задовільний
результат вирішення поставлених завдань і відповідають вимогам до моделей
прогнозування споживання природного газу.
4. Реалізовано програмний модуль, функціонал якого охоплює всі основні
стадії циклу розробки моделі прогнозування часових рядів. Реалізовано пайплайн
формування єдиного масиву даних споживання і температури повітря всіх
газорозподільних станцій обраної області або регіону. Блок реалізації прогнозних
моделей розраховує споживання у вказаній точці чи області на горизонт
прогнозування визначеної довжини. Основною технологією розробки модуля була
мова програмування Python і її бібліотеки та фреймворки (Numpy, Pandas,
Matplotlib, Statsmodels, TensorFlow). Отримання даних середньодобової
температури повітря реалізовано з використанням API WeatherAPI. У перспективі
планується зробити повноцінне впровадження математичного модуля в
інфраструктуру компанії з автоматичним завантаженням вхідних даних і
перенавчанням моделі.
5. Проведено тестування розробленого модуля на даних Черкаської області
2024 року, зими 2024/2025 року і України листопада 2025 року. Результати
прогнозування та їх порівняння з реальними даними були відображені на числених
графіках і зображеннях. Отримані похибки, виміряні метрикою MAPE є
допустимими для даного класу задач, а точність короткострокових прогнозів є
високою. Розвиток програмного модуля прогнозування споживання природного
газу, буде спрямований на підвищення точності прогнозування, на
масштабованість системи та на можливість адаптації до нових моделей, типів
даних і задач. Це зробить програмний модуль більш універсальним та
конкурентоспроможним у реальних умовах застосування.
97
СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ
1. Jongseon Kim, Hyungjoon Kim, HyunGi Kim, Dongjun Lee, Sungroh Yoon.
A Comprehensive Survey of Time Series Forecasting: Architectural Diversity and Open
Challenges. 2025. 65 p. URL: https://arxiv.org/pdf/2411.05793v1 (дата звернення:
25.11.2025).
2. Gu A., Dao T. Mamba: Linear-time sequence modeling with selective state
spaces. 2023. 36 p. URL: https://arxiv.org/pdf/2312.00752 (дата звернення:
25.11.2025).
3. Xiangjie Kong, Zhenghao Chen, Weiyao Liu, Kaili Ning, Lechao Zhang,
Syauqie Muhammad Marier, Yichen Liu, Yuhao Chen, Feng Xia. Deep Learning for
Time Series Forecasting: A Survey. 2025. 60 p. URL: https://arxiv.org/pdf/2503.10198.
4. Awesome Time Series Forecasting/Prediction Papers. URL:
https://github.com/ddz16/TSFpaper?tab=readme-ov-file#foundation-model (дата
звернення: 25.11.2025)
5. Ланде Д. В., Юзефович В. В. Лінгвістичний підхід до прогнозування
часових рядів // Реєстрація, зберігання і обробка даних, 2022, Т. 24, № 1. C. 13-22.
URL: http://dwl.kiev.ua/art/ipri2022-1/1-2.pdf (дата звернення: 25.11.2025).
6. Hua Tang, Chong Zhang, Mingyu Jin, Qinkai Yu, Zhenting Wang, Xiaobo
Jin, Yongfeng Zhang, Mengnan Du. Time Series Forecasting with LLMs: Understanding
and Enhancing Model Capabilities. 2024. 10 p. URL: https://arxiv.org/abs/2402.10835
(дата звернення: 25.11.2025).
7. НАЦІОНАЛЬНИЙ СТАНДАРТ УКРАЇНИ ДСТУ ISO 10017:2023 (ISO
10017:2021, IDT). Управління якістю. Настанови щодо застосування статистичних
методів відповідно до ISO 9001:2015.
https://zakon.isu.net.ua/sites/default/files/normdocs/dstu_iso_10017_2023_upravlinnya_ya
kistyu._nastanovi_schodo_za.pdf (дата звернення: 25.11.2025).
8. Meenakshi Thalor, Ritesh Choudhary, Ajay Jangid, Deep Gandhecha, Rishab
Bhat. A Review on Forecasting Models of Natural Gas // International Journal of
Scientific Research in Science and Technology. Print ISSN: 2395-
98
6011|Online ISSN: 2395-602X. doi: https://doi.org/10.32628/IJSRST218375 (дата
звернення: 27.11.2025).
9. Huilong Wang, Xianjun Gao, Ying Zhang, Yuanwei Yang. Natural Gas
Consumption Forecasting Model Based on Feature Optimization and Incremental Long
Short-Term Memory. Sensors 2025, 25(10), 3079. https://doi.org/10.3390/s25103079
(дата звернення: 27.11.2025).
10. Zhao, M., Guo, G., Fan, L. et al. Short-term natural gas load forecasting based
on EL-VMD-Transformer-ResLSTM. Sci Rep 14, 20343 (2024).
https://doi.org/10.1038/s41598-024-70384-9 (дата звернення: 27.11.2025).
11. Математичні методи ідентифікації динамічних систем: навчальний
посібник / Б. І. Мокін, В. Б. Мокін, О. Б. Мокін. Вінниця: ВНТУ, 2010. 260 с. URL:
https://web.posibnyky.vntu.edu.ua/feeem/1mokin_matmetody_identifikaciyi_dinamsyst
em/5-1.html (дата звернення: 27.11.2025).
12. Nicholson W., Matteson D., Bien J. VARX‑L: Structured Regularization for
Large Vector Autoregressions with Exogenous Variables. 2015. 51 p. URL:
https://arxiv.org/abs/1508.07497 (дата звернення: 27.11.2025).
13. Jammalamadaka S. R., Qiu J., Ning N. Multivariate Bayesian Structural Time
Series Model. 2018. 33 p. URL: https://arxiv.org/abs/1801.03222 (дата звернення:
27.11.2025).
14. Chen T., Guestrin C. XGBoost: A Scalable Tree Boosting System. KDD.
2016. 13 p. URL: https://arxiv.org/pdf/1603.02754.pdf (дата звернення: 27.11.2025).
15. Velarde G., Branez P., Bueno A., Heredia R., Lopez‑Ledezma M. An
Open‑Source and Reproducible Implementation of LSTM and GRU Networks for Time
Series Forecasting. 2025. 12 p. URL: https://arxiv.org/abs/2504.18185 (дата звернення:
27.11.2025).
16. Oreshkin B. N., Carpov D., Chapados N., Bengio Y. N-BEATS: Neural Basis
Expansion Analysis for Time Series Forecasting. ICLR. 2020. 31 p. URL:
https://arxiv.org/pdf/1905.10437.pdf (дата звернення: 27.11.2025).
99
17. Challu C., Olivares K. G., et al. N-HITS: Neural Hierarchical Interpolation
for Time Series Forecasting. 2023. 18 p. URL: https://arxiv.org/pdf/2201.12886.pdf (дата
звернення: 27.11.2025).
18. Nie Y., Huo Z., et al. A Time Series is Worth 64 Words: Long-term
Forecasting with Transformers. 2023. 24 p. URL: https://arxiv.org/pdf/2211.14730.pdf
(дата звернення: 27.11.2025).
19. Lim B., Zohren S. Temporal Fusion Transformers for Interpretable Multi-
horizon Time Series Forecasting. 2021. 27 p. URL: https://arxiv.org/pdf/1912.09363.pdf
(дата звернення: 27.11.2025).
20. Triebe O., Hewamalage H., Laptev N., Rajagopal A., Smyl S. NeuralProphet:
Explainable Forecasting at Scale. 2021. 40 p. URL: https://arxiv.org/pdf/2111.15397.pdf
(дата звернення: 27.11.2025).
21. Brykin D. Sales Forecasting Models: Comparison between ARIMA, LSTM
and Prophet. Journal of Computer Science. 2024. URL:
https://thescipub.com/pdf/jcssp.2024.1222.1230.pdf (дата звернення: 27.11.2025).
22. Sherly A., Christo M. S., Elizabeth Jesi V. A hybrid approach to time series
forecasting: Integrating ARIMA and Prophet for improved accuracy. 2025. 17 p. URL:
https://www.sciencedirect.com/science/article/pii/S2590123025017748 (дата
звернення: 27.11.2025).
23. Top-10-python-libraries-for-time-series-forecasting-in-2025. URL:
https://medium.com/@shouke.wei/top-10-python-libraries-for-time-series-forecasting-
in-2025-9118fb12b0ce (дата звернення: 27.11.2025).
24. Time Series Projects: Tools, Packages, and Libraries That Can Help. URL:
https://neptune.ai/blog/time-series-tools-packages-
libraries#:~:text=Time%20series%20forecasting%20with%20Darts%20Darts%20is,sam
e%20way%20as%20in%20the%20scikit%2Dlearn%20package (дата звернення:
27.11.2025).
25. Rob J Hyndman, Rebecca Killick (2025). CRAN Task View: Time Series
Analysis. Version 2025-12-12. URL https://CRAN.R-project.org/view=TimeSeries
(дата звернення: 27.11.2025).
100
26. Time Series Forecasting Principles with Amazon Forecast. URL:
https://d1.awsstatic.com/whitepapers/time-series-forecasting-principles-amazon-
forecast.pdf (дата звернення: 27.11.2025).
27. Amazon Forecast: Developer Guide. URL:
https://docs.aws.amazon.com/pdfs/forecast/latest/dg/forecast.dg.pdf (дата звернення:
27.11.2025).
28. TimescaleDB vs InfluxDB: Purpose Built Differently for Time-Series Data.
URL: https://www.tigerdata.com/blog/timescaledb-vs-influxdb-for-time-series-data-
timescale-influx-sql-nosql-36489299877 (дата звернення: 27.11.2025).
29. Influxdb-vs-timescaledb. URL:
https://www.influxdata.com/comparison/influxdb-vs-timescaledb/ (дата звернення:
27.11.2025).
30. Офіційний сайт InfluxDB. URL:
https://www.influxdata.com/products/influxdb3/ (дата звернення: 27.11.2025).
31. Faisal Rafiq Khan. Apache Kafka and real-time data streaming (January
2021). URL:
https://www.researchgate.net/publication/348575301_Apache_kafka_with_real-
time_data_streaming (дата звернення: 27.11.2025).
32. Best AutoML frameworks in 2025. URL: https://geniusee.com/single-
blog/automl-frameworks (дата звернення: 27.11.2025).
33. Сайт компанії «Оператор ГТС України». URL: https://tsoua.com/ (дата
звернення: 27.11.2025).
34. Технічні вимоги щодо організації надання/отримання даних ТОВ
«Оператор ГТС» про обсяг та фізико-хімічні показники газу у точках входу та
точках виходу до/з газотранспортної системи. URL: https://tsoua.com/wp-
content/uploads/2024/05/OGTSU_Tehnichni-vymogy-AS4.pdf (дата звернення:
27.11.2025).
35. Офіційний сайт ресурсу weatherapi. URL: https://www.weatherapi.com/
(дата звернення: 27.11.2025).
101
36. Schulitschenko, Mark. What is an ARIMAX Model and How is it used in
Financial Forecasting? (July 21, 2025). Available at SSRN: URL:
http://dx.doi.org/10.2139/ssrn.5359991 (дата звернення: 27.11.2025).
37. Mandic, Danilo P. Recurrent neural networks for prediction: learning
algorithms, architectures, and stability / Danilo P. Mandic, Jonathon A. Chambers.
Copyright © 2001 John Wiley & Sons, Ltd. 285 p. Print ISBN:9780471495178. Online
ISBN:9780470845356. DOI:10.1002/047084535X (дата звернення: 27.11.2025).
38. Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural
Computation, 9(8), 1735–1780. doi:10.1162/neco.1997.9.8.1735 (дата звернення:
27.11.2025).
39. Zarzycki, K.; Ławry´nczuk, M. LSTM and GRU Neural Networks as Models
of Dynamical Processes Used in Predictive Control: A Comparison of Models Developed
for Two Chemical Reactors. Sensors 2021, 21, 5625. URL: https://doi.org/10.3390/
s21165625 (дата звернення: 27.11.2025).
102
ДОДАТОК А
«Затверджую»
Завідувач кафедри статистики
та прикладної математики
___________ Анаіт КАРАПЕТЯН
«___»_______2025 р.
МОДЕЛЮВАННЯ ТА ПРОГНОЗУВАННЯ ДИНАМІКИ СПОЖИВАННЯ
ПРИРОДНОГО ГАЗУ В РЕГІОНАХ УКРАЇНИ
Специфікація
482.ЧДТУ.2436-01
Листів 2
Розробник _______________ Ярослав ПЛЕМЕННИК
Керівник ________________ Юрій ТРИУС
Черкаси – 2025
103
482.ЧДТУ.52436-01 01 01-1
Позначення Найменування Примітка
Документація
482.ЧДТУ.2436-01 12 01-1 Текст програми
482.ЧДТУ.2436-01 99 01-1 Публікації з теми
кваліфікаційної роботи
магістра
104
ДОДАТОК Б
МОДЕЛЮВАННЯ ТА ПРОГНОЗУВАННЯ ДИНАМІКИ СПОЖИВАННЯ
ПРИРОДНОГО ГАЗУ В РЕГІОНАХ УКРАЇНИ
Текст програми
482.ЧДТУ.52436-01 12 01-1
Листів 7
Розробник _________________ Ярослав ПЛЕМЕННИК
Черкаси – 2025
105
# Імпорт необхідних бібліотек і пакетів
import numpy as np
import pandas as pd
from tensorflow.keras.layers import Input, LSTM, Dense, Concatenate, Flatten
from tensorflow.keras.models import Model
# 1. Формування датафрейму вхідних даних температури повітря
for locations in range(1200, len(df_1)):
print(dt.columns[locations])
for i in range(int(len(datta) / 2)):
start_ddate = datta[2*i]
end_ddate = datta[2*i+1]
lati = df.iat[locations, 1][1]
longti = df.iat[locations, 1][0]
url_1 = f'https://api.weatherapi.com/v1/history.json
key={API_KEY}&q={lati},{longti}&dt={start_ddate}&end_dt={end_ddate}'
response_2 = requests.get(url_1)
data_2 = response_2.json()
for day in data_2['forecast']['forecastday']:
date_2 = day['date']
avg_temp_2 = day['day']['avgtemp_c']
tem = np.append(tem, avg_temp_2)
print(f'{date_2}: середньодобова температура {avg_temp_2}C')
dt[dt.columns[locations]] = tem
tem = np.array([])
#Модель ARIMAX
# 2. Прогнозування споживання газу всіх станцій Черкаської області і області в цілому
впродовж зими 2024/2025 року
for k in range(1, df.shape[1] - 1, 2):
for i in range(0, 90, 3):
X = df.iloc[i:i+1065, k]
Y = df.iloc[i:i+1065, k + 1]
model = SARIMAX(Y, exog=X, order=(1, 0, 0), seasonal_order=(0, 0, 0, 0))
results = model.fit()
X_future = df.iloc[i+1065:i+1068, k]
forecast = results.get_forecast(steps=3, exog=X_future)
106
predicted_values = forecast.predicted_mean
vas = np.append(vas, predicted_values)
mape = np.mean(np.abs((df.iloc[i+1065:i+1068, k + 1] - predicted_values) /
df.iloc[i+1065:i+1068, k + 1])) * 100
pas = np.append(pas, mape)
print(df.columns[k].split(':')[0])
print('Середня похибка: ' + str(np.mean(pas[np.isfinite(pas)])))
print('Медіана похибок: ' + str(np.median(pas[np.isfinite(pas)])))
pas = np.array([])
sum += vas
vas = np.array([])
print('Черкаська область')
print('Середня похибка: ' + str(np.mean(np.abs((df['Сума'].iloc[1065:1155] - sum) /
df['Сума'].iloc[1065:1155])) * 100))
print('Медіана похибки: ' + str(np.median(np.abs((df['Сума'].iloc[1065:1155] - sum) /
df['Сума'].iloc[1065:1155])) * 100))
# 3. Прогноз на основі сумарного споживання газу всієї Черкаської області
for i in range(0, 90):
X = df.iloc[i:i+1065, 69]
Y = df.iloc[i:i+1065, 85]
model = SARIMAX(Y, exog=X, order=(1, 0, 0), seasonal_order=(0, 0, 0, 0))
results = model.fit()
X_future = df.iloc[i+1065, 69]
forecast = results.get_forecast(steps=1, exog=X_future)
predicted_values = forecast.predicted_mean
mape = np.mean(np.abs((df.iloc[i+1065, 85] - predicted_values) / df.iloc[i+1065, 85])) * 100
pas = np.append(pas, mape)
print(df.columns[69].split(':')[0])
print('Середня похибка: ' + str(np.mean(pas[np.isfinite(pas)])))
print('Медіана похибок: ' + str(np.median(pas[np.isfinite(pas)])))
pas = np.array([])
vas = np.array([])
# 4. Прогноз на основі сумарного споживання газу всієї Черкаської області з
застосуванням оператора різниці до вхідного ряду
for i in range(0, 90):
107
X = df.iloc[i:i+1065, 69]
Y = df.iloc[i:i+1065, 85]
model = SARIMAX(Y, exog=X, order=(1, 1, 0), seasonal_order=(0, 0, 0, 0))
results = model.fit()
X_future = df.iloc[i+1065, 69]
forecast = results.get_forecast(steps=1, exog=X_future)
predicted_values = forecast.predicted_mean
mape = np.mean(np.abs((df.iloc[i+1065, 85] - predicted_values) / df.iloc[i+1065, 85])) * 100
pas = np.append(pas, mape)
print(df.columns[69].split(':')[0])
print('Середня похибка: ' + str(np.mean(pas[np.isfinite(pas)])))
print('Медіана похибок: ' + str(np.median(pas[np.isfinite(pas)])))
pas = np.array([])
vas = np.array([])
#Модель LSTM
# 5. Визначення розмірностей значень вхідних параметрів
L = 30
H = 10
Fp = 2
Ff = 1
num_samples = 1000
# 6. Конструювання архітектури LSTM частини моделі
inp_past = Input(shape=(L, Fp), name='past input')
h = LSTM(64, return_sequences=False)(inp_past)
h = Dense(32, activation='relu')(h)
# Конструювання архітектури Dense частини моделі
inp_future = Input(shape=(H, Ff), name='future_input')
f = Flatten()(inp_future)
f = Dense(32, activation='relu')(f)
f = Dense(16, activation='relu')(f)
f = Dense(16, activation='relu')(f)
f = Dense(8, activation='relu')(f)
f = Dense(1)(f)
f = Dense(H)(f)
108
# 7. Об’єднання LSTM і Dense частин в цілісну модель
combined = Concatenate()([h, f])
# 8. вихід моделі
out = Dense(H, name='forcast_output')(combined)
# 9. Створення і компіляція моделі
model = Model(inputs=[inp_past, inp_future], outputs=out)
model.compile(optimizer='adam', loss='mse')
# 10. Формування тренувальної вибірки
dp = df[['ГРС Черкаси', 'Сума']]
for i in range(hash.shape[0]):
hash[i] = dp.iloc[i:i+10].values
for i in range(gah.shape[0]):
gah[i] = dp[['ГРС Черкаси']].iloc[i+10:i+13].values
for i in range(bah.shape[0]):
bah[i] = dp['Сума'].iloc[i+10:i+13].values
# 11. Перевірка розмірності і запуск навчання моделі
X_past = hash
X_future = gah
y_target = bah
print(X_past.shape)
print(X_future.shape)
print(y_target.shape)
model.fit([X_past, X_future], y_target, epochs=100, batch_size=32)
# 12. Ініціалізація вхідних тензорів для тестування моделі
x_pa = np.zeros((1, 10, 2))
x_fu = np.zeros((1, 3, 1))
# 13. Тестування отриманої моделі
for i in range(0, 90, 3):
x_pa = np.zeros((1, 10, 2))
x_pa[0] = dp.iloc[1065+i:1075+i].values
x_fu = np.zeros((1, 3, 1))
x_fu[0] = dp[['ГРС Черкаси']].iloc[1075+i:1078+i].values
y_pred = model.predict([x_pa, x_fu])
print(y_pred[0])
print(dp['Сума'].iloc[1075+i:1078+i].values)
109
print(np.abs(((y_pred[0] - dp['Сума'].iloc[1075+i:1078+i].values) /
dp['Сума'].iloc[1075+i:1078+i].values) * 100))
print('\n')
y = np.append(y, np.abs(((y_pred[0] - dp['Сума'].iloc[1075+i:1078+i].values) /
dp['Сума'].iloc[1075+i:1078+i].values) * 100))
#14. Функція для формування об’єднаного датафрейма, необхідних для моделі даних по
обраній в аргументі області
def Collect_data(oblast):
mis = co[(co['Область.1'] == oblast) & (co['Кореляція'] < - 0.8)]['Код'].values
Misto = fvatana[fvatana['Object'].isin(mis)]
Misto_Oblast = pd.DataFrame(0.0, index=range(num_rows), columns=mis)
for i in range(len(mis)):
Misto_Oblast[mis[i]] = Misto[Misto['Object'] == mis[i]]['Value'].to_numpy()
Misto_Oblast.insert(0, 'Data', Misto['Date'].unique())
print('Споживання зчитано')
namo = []
for i in range(len(mis)):
if len(pog[pog['ID'] == mis[i]]) == 0:
namo.append(bez_pog_prom(oblast))
else:
namo.append(pog[pog['ID'] == mis[i]].iat[0, -1])
Mis_pog = weather[namo]
print('Температура зчитана')
comb = pd.DataFrame()
comb['Data'] = Misto_Oblast['Data']
for i in range(len(list(namo))):
if isinstance(Mis_pog[namo[i]], pd.DataFrame):
if namo[i] in comb.columns:
t = namo[i] + '(' + str(i) + ')'
comb[t] = Mis_pog[namo[i]].iloc[:, 0]
else:
comb[namo[i]] = Mis_pog[namo[i]].iloc[:, 0]
else:
if namo[i] in comb.columns:
t = namo[i] + '(' + str(i) + ')'
110
comb[t] = Mis_pog[namo[i]]
else:
comb[namo[i]] = Mis_pog[namo[i]]
print(str(i) + ': ' + comb.columns[2*i+1])
comb[list(Misto_Oblast.columns[1:])[i]] = Misto_Oblast[list(Misto_Oblast.columns[1:])[i]]
print('Комбінований файл ')
comb['Сума'] = comb.iloc[:, 2::2].sum(axis=1)
return comb
# 15. Функція обрахунку середнього без найбільших значень
def mean_witout_top_n(arr, n):
arr = np.asarray(arr)
top_n_indices = np.argpartition(arr, -n)[-n:]
reduced_arr = np.delete(arr, top_n_indices)
return reduced_arr.mean()
# 16. Функція обрахунку медіани без найбільших значень
def median_witout_top_n(arr, n):
arr = np.asarray(arr)
top_n_indices = np.argpartition(arr, -n)[-n:]
reduced_arr = np.delete(arr, top_n_indices)
return np.median(reduced_arr)
111
ДОДАТОК В
МОДЕЛЮВАННЯ ТА ПРОГНОЗУВАННЯ ДИНАМІКИ СПОЖИВАННЯ
ПРИРОДНОГО ГАЗУ В РЕГІОНАХ УКРАЇНИ
Публікації з теми кваліфікаційної роботи магістра
482.ЧДТУ.2436-01 99 01-1
Листів 4
Розробник _________________ Ярослав ПЛЕМЕННИК
Черкаси – 2025
112
1. Племенник Я.Ю., Карапетян А.Р. Прогнозування регіонально структурованого
споживання природного газу з газотранспортної системи України // Збірник тез доповідей
студентської науково-практичної конференції ЧДТУ: 22–24 квітня 2025 р. м. Черкаси
[Електронний ресурс] / [упоряд. : Єгорова О. В., Захарова О. В., Тичков В. В. та ін.] ; М-во
освіти і науки України, Черкас. держ. технол. ун-т. – Черкаси : ЧДТУ, 2025. С. 40-41.
113
114
2. Племенник Я.Ю. Моделі і методи прогнозування регіонально структурованого
споживання прориродного газу на основі даних газотранспортної системи україни // Збірник тез
доповідей ІV Міжнар. наук.-практич. конфер. «Інновації та перспективні шляхи розвитку
інформаційних технологій» (25 лист. 2025 р., м. Черкаси) [Електронний ресурс] / упоряд.: Т. О.
Прокопенко, М-во освіти і науки України, Черкас. держ. технол. ун-т. Черкаси : ЧДТУ, 2025.