Please use this identifier to cite or link to this item:
https://er.chdtu.edu.ua/handle/ChSTU/6732| Title: | Застосування алгоритмів глибинного навчання для виявлення аномалій у багатовимірних потоках даних |
| Authors: | Палагіна, Олена Анатоліївна ЗЕЛЕНЕЦЬКИЙ, Ігор Володимирович |
| Keywords: | ВИЯВЛЕННЯ МЕРЕЖЕВИХ ВТОРГНЕНЬ, МАШИННЕ НАВЧАННЯ, АНОМАЛЬНІ ДАННІ, СИСТЕМА ВИЯВЛЕННЯ ВТОРГНЕНЬ IDS;NETWORK INTRUSION DETECTION, MACHINE LEARNING, ANOMALOUS DATA, INTRUSION DETECTION SYSTEM (IDS) |
| Issue Date: | 18-Dec-2025 |
| Abstract: | Кваліфікаційна робота присвячена проблемі інтелектуального аналізу мережевого трафіку з метою виявлення аномальної та потенційно небезпечної активності в інформаційних системах. Об’єктом дослідження є процеси функціонування комп’ютерних мереж у контексті інформаційної безпеки, а предметом — статистичні підходи та алгоритми машинного навчання, що використовуються для автоматизованого виявлення вторгнень і нетипових подій. Актуальність теми зумовлена зростанням складності кібератак і обмеженими можливостями класичних сигнатурних систем захисту.
У роботі розглянуто сучасні методи побудови систем виявлення вторгнень, виконано підготовку даних, навчання та налаштування моделей KNN, Naive Bayes, Decision Tree, Random Forest, XGBoost, CatBoost і ансамблевого підходу Voting. Результати експериментів показали, що використання зваженого soft-voting на основі поєднання XGBoost, CatBoost та Random Forest дозволяє досягти найвищих показників точності та стійкості до різних типів аномалій, що підтверджує ефективність ансамблевих методів для задач мережевої безпеки. The master’s thesis addresses the problem of intelligent network traffic analysis for detecting anomalous and potentially malicious activity in information systems. The object of the research is the operation of computer networks from the perspective of information security, while the subject includes statistical approaches and machine learning algorithms applied to automated intrusion and anomaly detection. The study is motivated by the increasing complexity of cyberattacks and the limited effectiveness of traditional signature-based protection techniques. The work explores modern intrusion detection methodologies, including data preprocessing, model training, and hyperparameter tuning for KNN, Naive Bayes, Decision Tree, Random Forest, XGBoost, CatBoost, and ensemble voting methods. Experimental results demonstrate that a weighted soft-voting ensemble combining XGBoost, CatBoost, and Random Forest achieves the best performance, providing higher accuracy and robustness in identifying suspicious network behavior and confirming the advantages of ensemble learning for cybersecurity tasks. |
| URI: | https://er.chdtu.edu.ua/handle/ChSTU/6732 |
| Appears in Collections: | 112 Статистика (Аналіз даних (DATA SCIENCE) та комп'ютерна статистика) |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| Зеленецький_Ігор_Магістерська_робота_2025_вся_робота.pdf Restricted Access | 2.64 MB | Adobe PDF | View/Open Request a copy |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.
Extracted text
МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ
ЧЕРКАСЬКИЙ ДЕРЖАВНИЙ ТЕХНОЛОГІЧНИЙ УНІВЕРСИТЕТ
Факультет інформаційних технологій і систем
Кафедра статистики та прикладної математики
Пояснювальна записка
до кваліфікаційної роботи магістра
на тему «Застосування алгоритмів глибинного навчання для виявлення
аномалій у багатовимірних потоках даних»
Виконав: здобувач 2 курсу, групи MDS-2410
ступеня вищої освіти магістра
спеціальності 112 Статистика
освітньо-професійної програми
«Аналіз даних (Data Science)
та комп’ютерна статистика»
Ігор ЗЕЛЕНЕЦЬКИЙ
Керівник: доцент кафедри статистики та
прикладної математики, к.т.н, доцент
Олена ПАЛАГІНА
Рецензент: доцент кафедри інформаційних систем
та технологій Київського
національного університету імені
Тараса Шевченка, к.т.н, доцент
Ольга КРАВЧЕНКО
Черкаси – 2025 року
ЧЕРКАСЬКИЙ ДЕРЖАВНИЙ ТЕХНОЛОГІЧНИЙ УНІВЕРСИТЕТ
Факультет Інформаційних технологій і систем
Кафедра Статистики та прикладної математики
Освітньо-кваліфікаційний
рівень Магістр
Спеціальність 112 Статистика
Освітня програма – Аналіз даних (Data Science) та комп’ютерна статистика
ЗАТВЕРДЖУЮ
Завідувач кафедри статистики
та прикладної математики
_______________ Анаіт КАРАПЕТЯН
«___» _____________ 2025 р.
ЗАВДАННЯ
на кваліфікаційну роботу магістра
Зеленецького Ігоря Володимировича
(прізвище, ім’я, по батькові)
1. Тема роботи Застосування алгоритмів глибинного навчання для виявлення
аномалій у багатовимірних потоках даних
Керівник роботи Палагіна Олена Анатоліївна, к.т.н., доцент
(прізвище, ім’я, по батькові, науковий ступінь, вчене звання)
затверджені наказом університету від «07» жовтня 2025 р. №307/03-03.
2. Строк подання студентом роботи «08» грудня 2025 року.
3. Вихідні дані до роботи: провести аналіз існуючих підходів, класифікацію аномалій
та інструментальних засобів; побудувати модель автоенкодера та глибоких
нейронних мереж для виявлення аномалій при обробці багатомірних даних;
підібрати оптимальні гіперпараметри моделей; забезпечити обробку дисбалансних класів
і багатовимірних ознак; оцінити якість моделей за метриками F1-score, ROC-AUC;
мова програмув а ння – Py thon.
4. Зміст пояснювальної записки (перелік питань, які потрібно розробити)
Вступ; Аналіз методів і моделей виявлення аномалій у потоках даних; Побудова моделі
автоенкодера для виявлення аномалій у багатовимірних даних; Побудова моделі глибинного
навчання для виявлення аномалій при аналізі багатовимірних даних; Висновки; Список
використаних джерел.
5. Перелік графічного матеріалу (з точним зазначенням обов’язкових схем, діаграм, плакатів, тощо)
Класифікація методів та підходів виявлення аномалій в даних; Інструментальні засоби виявлення
аномалій; Опис та обгрунтування архітектури системи обробки даних методами ML;
Практична реалізація автоенкодера для виявлення аномальних даних; Побудова нейромережевої
моделі обробки даних; Мультимедійна презентація.
6. Консультанти розділів роботи
Прізвище, Підпис, дата
Розділ ініціали та
посада завдання видав завдання прийняв
консультанта
7. Дата видачі завдання «07» жовтня 2025 р.
КАЛЕНДАРНИЙ ПЛАН
№ з/п Назва етапів кваліфікаційної роботи магістра Строк виконання
етапів роботи Примітка
1. Пошук і аналіз інформації по заданій темі 07.10.2025‒15.10.2025 виконано
2. Написання 1-го розділу: аналіз мережевих 16.10.2025‒23.10.2025 виконано
вторгнень та ризиків в інформаційно-
телекомунікаційних системах
3. Написання 2-го розділу: методи машинного 24.10.2025‒07.11.2025 виконано
навчання для виявлення мережевих вторгнень
4. Написання 3-го розділу: практична реалізація 08.11.2025‒24.11.2025 виконано
методів машинного навчання для виявлення
мережевих вторгнень
5. Написання вступу і висновків, складання 25.11.2025‒29.11.2025 виконано
списку літератури, рефератів
6. Оформлення пояснювальної записки 30.11.2025‒08.12.2025 виконано
7. Оформлення плакатів презентації 12.12.2025‒15.12.2025 виконано
Студент Ігор ЗЕЛЕНЕЦЬКИЙ
Керівник роботи Олена ПАЛАГІНА
2
РЕФЕРАТ
Пояснювальна записка: 85 сторінки, 38 рисунків, 11 літературних джерел.
Об’єкт дослідження - процеси аналізу мережевого трафіку та виявлення
підозрілої активності в інформаційних системах.
Предмет дослідження - статистичні методи, моделі та алгоритми
машинного навчання, що застосовуються для виявлення аномальної та потенційно
небезпечної мережевої активності.
Метою кваліфікаційної роботи магістра є розроблення та дослідження
статистично обґрунтованої моделі виявлення підозрілої активності у мережевому
трафіку з використанням методів інтелектуального аналізу даних та машинного
навчання.
Досліджено методи виявлення підозрілої активності та аномалій у
комп’ютерних мережах із застосуванням сучасних методів машинного навчання.
Проаналізовано поняття підозрілої активності, класифікацію аномалій, основні
типи атак та їх характерні ознаки, а також проведено порівняльний аналіз
традиційних методів виявлення мережевих загроз із підходами на основі ML/AI.
Такий аналіз дозволив обґрунтувати необхідність використання алгоритмів
машинного навчання для підвищення точності та швидкості виявлення загроз.
Описано методологічні основи побудови моделей виявлення мережевих
вторгнень, включно з підготовкою та обробкою даних для IDS, вибором
алгоритмів машинного навчання (KNN, Naive Bayes, Decision Tree, Random Forest,
XGBoost, CatBoost, Voting), оптимізацією гіперпараметрів та підбором метрик
оцінки ефективності моделей.
Показано, що найкращий результат досягається для методу VotingClassifier,
який поєднав сильні сторони декількох моделей — XGBoost, CatBoost та
RandomForest. Завдяки застосуванню soft-voting та зважуванню впливу
класифікаторів вдалося значно підвищити точність остаточного прогнозу.
ВИЯВЛЕННЯ МЕРЕЖЕВИХ ВТОРГНЕНЬ, МАШИННЕ НАВЧАННЯ,
АНОМАЛЬНІ ДАННІ, СИСТЕМА ВИЯВЛЕННЯ ВТОРГНЕНЬ IDS.
3
ABSTRACT
Explanatory note: 85 pages, 38 figures, 11 literary sources.
Object of the research – the processes of network traffic analysis and detection of
suspicious activity in information systems.
Subject of the research – statistical methods, models, and machine learning
algorithms applied for detecting anomalous and potentially dangerous network activity.
The purpose of the master's qualification work is to develop and investigate a
statistically substantiated model for detecting suspicious activity in network traffic
using data mining and machine learning methods.
The methods for detecting suspicious activity and anomalies in computer
networks using modern machine learning methods have been studied. The concept of
suspicious activity, classification of anomalies, main types of attacks and their
characteristic features have been analyzed, and a comparative analysis of traditional
network threat detection methods with ML/AI-based approaches has been conducted.
This analysis substantiated the necessity of using machine learning algorithms to
improve the accuracy and speed of threat detection.
The methodological foundations for building network intrusion detection models
are described, including data preparation and processing for IDS, selection of machine
learning algorithms (KNN, Naive Bayes, Decision Tree, Random Forest, XGBoost,
CatBoost, Voting), hyperparameter optimization, and the selection of model
performance evaluation metrics.
It is shown that the best result is achieved by the VotingClassifier method, which
combined the strengths of several models – XGBoost, CatBoost, and RandomForest. By
applying soft-voting and weighting the influence of classifiers, it was possible to
significantly improve the accuracy of the final prediction.
NETWORK INTRUSION DETECTION, MACHINE LEARNING, ANOMALOUS
DATA, INTRUSION DETECTION SYSTEM (IDS).
4
ЗМІСТ
ВСТУП 6
1 АНАЛІЗ МЕТОДІВ І МОДЕЛЕЙ ВИЯВЛЕННЯ АНОМАЛІЙ У
8
ПОТОКАХ ДАНИХ
1.1 Сутність поняття «аномалія» та класифікація типів аномалій у даних 8
1.2 Класифікація методів та підходів виявлення аномалій в даних 15
1.3 Інструментальні засоби виявлення аномалій 22
1.4 Аналіз практичних задач як обробка багатовимірних потоків даних 25
1.5 Методи виявлення аномальних даних як інструмент для реалізації 28
систем IDS
1.6 Висновки 31
2 ПОБУДОВА МОДЕЛІ АВТОЕНКОДЕРА ДЛЯ ВИЯВЛЕННЯ
33
АНОМАЛІЙ У БАГАТОВИМІРНИХ ДАНИХ
2.1 Формалізація задачі виявлення аномалій у багатовимірних потоках 33
даних
2.2 Опис та обґрунтування архітектури системи обробки даних 34
методами ML
2.3 Архітектура нейронних мереж для оброки даних 40
2.4 Параметри якості нейромережевих моделей 47
2.5 Побудова моделі нейромережевих автоенкодерів та їх властивості 50
2.6 Практична реалізація автоенкодера для виявлення аномальних даних 52
2.7 Висновки 62
5
3 ПОБУДОВА МОДЕЛІ ГЛИБИННОГО НАВЧАННЯ ДЛЯ 64
ВИЯВЛЕННЯ АНОМАЛІЙ ПРИ АНАЛІЗІ БАГАТОВИМІРНИХ
ДАНИХ
3.1 Попередній аналіз багатовимірних даних 64
3.2 Побудова нейромережевої моделі обробки даних 76
3.3 Висновки 83
ВИСНОВКИ 85
СПИСОК ВИКОРИСТАНОЇ ЛІТЕРАТУРИ 87
6
ВСТУП
У сучасних умовах стрімкого розвитку цифрових технологій, інтернету
речей, кіберфізичних систем та інтелектуальних сенсорних мереж відбувається
постійне зростання обсягів даних, що надходять у режимі реального часу. Ці
потоки даних є багатовимірними, високошвидкісними та часто містять значну
кількість шумів і нерегулярностей. У таких умовах виявлення аномалій
(відхилень) від нормальної поведінки системи або даних стає критично важливим
завданням для забезпечення надійності, безпеки та ефективності роботи
інформаційно-комунікаційних систем.
Проблема виявлення аномалій охоплює широкий спектр прикладних
областей. Зокрема, вона є актуальною в кібербезпеці (виявлення вторгнень і
шкідливої активності в мережевому трафіку), фінансовому моніторингу
(виявлення шахрайських транзакцій), промислових системах моніторингу
(ідентифікація відмов обладнання), медичних інформаційних системах (виявлення
аномальних показників пацієнтів), а також у розумних містах та інтелектуальних
транспортних системах.
Традиційні підходи до виявлення аномалій базуються на статистичних і
евристичних методах, які передбачають побудову моделей «нормальної»
поведінки та порівняння поточних спостережень із нею. Проте ці методи мають
обмежену ефективність у випадку багатовимірних потоків даних, де залежності
між ознаками є складними та нелінійними. Внаслідок цього виникає потреба у
використанні інтелектуальних методів, здатних автоматично виявляти складні
закономірності та структури у великих масивах інформації.
Сучасні підходи до розв’язання задачі виявлення аномалій все частіше
спираються на алгоритми машинного та глибинного навчання, які дають змогу
формувати узагальнені моделі нормальної поведінки системи та ефективно
ідентифікувати відхилення. Зокрема, глибинні нейронні мережі (Deep Neural
Networks, DNN), автоенкодери (Autoencoders), Convolutional Neural Network
7
(CNN), генеративно-змагальні мережі (GAN) та ін. продемонстрували високу
ефективність у виявленні складних аномальних патернів в багатомірних даних.
Таким чином, актуальність дослідження зумовлена необхідністю
розроблення та вдосконалення інтелектуальних методів виявлення аномалій у
багатовимірних потоках даних з використанням алгоритмів глибинного навчання,
що дозволить підвищити рівень безпеки, надійності та адаптивності сучасних
інформаційних систем, а також створити основу для впровадження
автоматизованих систем прийняття рішень на базі штучного інтелекту.
Мета кваліфікаційної роботи магістра полягає у є дослідженні та
порівняльному аналізі ефективності застосування нейронних мереж для
виявлення аномалій у багатовимірних потоках мережевих даних.
Для досягнення поставленої мети в роботі необхідно розв’язати наступні
задачі:
1. Провести аналіз існуючих підходів до виявлення аномалій у багатовимірних
даних на основі методів машинного навчання.
2. Обґрунтувати вибір архітектур нейронних мереж для аналізу
багатовимірних даних.
3. Розробити моделі нейромереж для класифікації мережевого трафіку та
виявлення аномалій.
4. Провести навчання та тестування моделей.
5. Виконати порівняльний аналіз точності та продуктивності моделей за
допомогою основних метрик машинного навчання.
Об’єкт дослідження – процес виявлення аномалій у багатовимірних
потоках даних.
Предмет дослідження – методи та алгоритми глибинного навчання, що
використовуються для побудови моделей автоматичного виявлення аномалій.
8
1 АНАЛІЗ МЕТОДІВ І МОДЕЛЕЙ ВИЯВЛЕННЯ АНОМАЛІЙ У ПОТОКАХ
ДАНИХ
1.1 Сутність поняття «аномалія» та класифікація типів аномалій у
даних
У сучасних інформаційних системах, що працюють із великими обсягами
потокових або статичних даних, надзвичайно важливою є задача виявлення
відхилень від типової поведінки. Такі відхилення або нестандартні спостереження
у даних прийнято називати аномаліями.
У загальному випадку аномалія — це спостереження, що істотно
відрізняється від більшості інших елементів вибірки та не відповідає загальним
закономірностям або шаблонам, притаманним системі. Виявлення таких об’єктів
дозволяє ідентифікувати несправності, вторгнення, шахрайські дії, помилки
сенсорів або інші небажані явища.
Поняття аномалії має міждисциплінарний характер і використовується в
різних сферах — від статистики та машинного навчання до кібербезпеки та
промислової автоматизації. У статистичному контексті аномалія розглядається як
викид (outlier), що значно відхиляється від очікуваного розподілу даних. У
контексті машинного навчання — це спостереження, яке не відповідає загальній
моделі або класифікаційним правилам, отриманим під час навчання. Таким
чином, аномалія може мати як статистичне, так і семантичне тлумачення, залежно
від предметної області.
Істотно відрізняється і природа появи аномалій у даних. Це може бути як
шум, тобто дані, що утворилися найчастіше випадковим чином. Можуть мати
місце і рідкісні явища, що представляють інтерес і потребують додаткового
вивчення (наприклад, поява сторонніх об'єктів на знімках тощо). Підходи до
виявлення аномалій різних видів можуть істотно відрізнятися. Наведемо декілька
прикладів, що демонструють актуальність даної задачі для широкого кола
діяльності людини.
9
Виявлення вторгнень у мережу (Intrusion Detection System – IDS). Безпека
мережевих інфраструктур є ключовою умовою стабільного функціонування
сучасного бізнесу, проте будь-яка комп’ютерна система має певні вразливості. ІТ-
системи постійно збирають дані про власний мережевий трафік, дії користувачів,
типи запитів на підключення тощо. Хоча більшість активності є рутинною та
безпечною, аналіз таких даних дає змогу своєчасно виявляти аномальні події, що
можуть свідчити про підготовку або здійснення кібератак (рис. 1.1). Оскільки
наслідки вторгнень зростають швидше, ніж можливість оперативної реакції,
особливо важливим стає впровадження спеціалізованих систем виявлення
вторгнень (IDS), здатних визначати потенційні загрози та підозрілу активність на
ранньому етапі.
Рисунок 1.1 - Забезпечення безпеки комп’ютерної мережі при застосуванні
аналізу даних
Медична діагностика (Medical Diagnosis). У сфері медицини під час
діагностичних процесів збираються великі обсяги даних — від зображень
(рентген, МРТ) до сигналів (ЕКГ) (рис. 1.2). Частина цих даних надходить
безпосередньо з персональних медичних пристроїв, таких як кардіостимулятори
чи розумні годинники. Методи виявлення аномалій дозволяють автоматично
ідентифікувати відхилення у фізіологічних показниках, що можуть бути ранніми
ознаками захворювань. У галузі онкології моделі глибокого навчання
10
використовуються для розпізнавання ракових тканин із точністю, порівнянною з
досвідченими лікарями. Крім того, алгоритми комп’ютерного зору допомагають
діагностувати рідкісні хвороби шляхом аналізу фотографій пацієнтів і виявлення
фенотипових ознак, пов’язаних із генетичними патологіями.
Рисунок 1.2 - Виявлення аномальних даних при дослідженні ЕКГ та МРТ
пацієнта
Таким чином, застосування машинного навчання в медичній сфері сприяє
підвищенню якості життя людей, дозволяючи проводити моніторинг стану
здоров’я, попереджати розвиток хвороб і покращувати точність діагностики.
Виявлення шахрайства (Credit Card Fraud). У фінансовому секторі
проблема шахрайських транзакцій залишається однією з найгостріших. За даними
звіту Association of Certified Fraud Examiners (ACFE) надходження шахрайства
оцінюються більш ніж 4,7 трлн доларів США щорічно. Згідно з дослідженням
TransUnion, компанії у світі в середньому втратили 7,7% річних доходів через
шахрайство, що еквівалентно близько 534 млрд дол. США серед опитаних лідерів
бізнесу.
За оцінками звіту Juniper Research, збитки банківської сфери через
шахрайство можуть зрости до 58,3 млрд дол. США до 2030 року (з ≈ 23 млрд у
2025 році).
11
Незважаючи на різноманітність форм шахрайства — від операцій з
банківськими картками до несанкціонованого доступу до рахунків — усі вони
мають спільну ознаку: наявність аномальної активності у фінансових даних. На
Рисунок 1.3 наведено приклад проекції даних з використанням методів
машинного навчання, де червоним кольором позначено шахрайські операції
(викиди).
Рисунок 1.3 - Візуалізація шахрайський дій при відображенні багатомірних
даних на двовимірний простір методом t-SNE
Виявлення дефектів виробництва. У виробничій сфері, зокрема в
електронній та переробній промисловості, автоматизоване виявлення дефектів є
критично важливим для забезпечення стабільної якості продукції. Завдання
полягає у виявленні виробів, які відхиляються від стандартних параметрів,
визначених підприємством або замовником. Для цього застосовуються методи
виявлення аномалій, які дозволяють ідентифікувати як значні, так і незначні
відхилення (рис.1.4).
12
Рисунок 1.4 - Виявлення дефектів при аналізі поверхні
Дефекти при аналізі зображень. Виробничі дефекти, такі як тріщини,
сколи, пошкодження фарби чи покриття, можуть бути виявлені шляхом аналізу
теплових або візуальних зображень. Автоматизація контролю якості реалізується
за допомогою нейронних мереж зі згортковою архітектурою (CNN – Convolutional
Neural Network), які розпізнають нетипові зразки на зображеннях. Подібні підходи
також ефективно застосовуються у системах відеоспостереження для виявлення
об’єктів, що мають аномальні характеристики або поведінку.
Існує кілька підходів до формального визначення аномалії. Згідно з
класичним статистичним підходом, аномалії — це елементи, значення яких
знаходяться за межами певного інтервалу, визначеного на основі середнього
значення та стандартного відхилення. У більш загальному випадку аномалії
визначаються через відстань або ймовірність появи об’єкта в заданому розподілі
даних. Якщо ймовірність дуже мала, або відстань до центру кластеру перевищує
поріг, об’єкт вважається аномальним.
З точки зору задач штучного інтелекту, аномалії розглядаються як
приклади, що не узгоджуються з нормальною поведінкою системи. Такі випадки
можуть бути пов’язані не лише зі статистичними властивостями, а й із
контекстом, у якому виникає спостереження. Саме тому сучасні підходи до
виявлення аномалій виходять за межі класичної статистики та базуються на
методах кластеризації, машинного навчання, нейронних мереж і глибинного
навчання, які дозволяють моделювати складні нелінійні залежності між ознаками.
13
Узагальнена класифікація аномалій у даних охоплює три основні типи:
точкові (point anomalies), контекстні (contextual anomalies) та колективні
(collective anomalies). Такий поділ базується на характері відхилення об’єкта від
загальної закономірності та на тому, чи розглядається кожне спостереження
окремо або у взаємозв’язку з іншими. Кожен із цих типів має власну специфіку,
що визначає вибір методів для їх виявлення.
Точкові аномалії є найпростішим і найчастіше досліджуваним типом
відхилень. Вони описують окремі спостереження, що значно відрізняються від
решти даних. Наприклад, раптовий стрибок трафіку в комп’ютерній мережі або
одиничне помилкове вимірювання сенсора може бути класифіковано як точкова
аномалія. У таких випадках детекція може здійснюватися на основі статистичних
критеріїв, кластеризації або відстаневих метрик (наприклад, метод k-найближчих
сусідів або алгоритм локальної щільності LOF).
Контекстні аномалії залежать не лише від абсолютного значення
спостереження, а й від контексту, у якому воно з’являється. Такий контекст може
визначатися часом, місцем, станом системи або іншими параметрами. Наприклад,
підвищене навантаження на мережу вдень може бути нормальним явищем, тоді як
аналогічний рівень уночі може свідчити про підозрілу активність. Для виявлення
контекстних аномалій використовуються моделі, здатні враховувати часові
залежності та закономірності, такі як рекурентні нейронні мережі (RNN, LSTM)
або моделі прогнозування часових рядів.
Колективні аномалії описують ситуації, коли окремі спостереження можуть
виглядати нормальними, але їх сукупність утворює незвичний шаблон. Такий тип
аномалій характерний для потоків даних, де важливим є порядок або
взаємозв’язок між спостереженнями. Наприклад, послідовність певних типів
мережевих пакетів може вказувати на початок DDoS-атаки, хоча жоден пакет
окремо не має аномальних ознак. Для виявлення колективних аномалій
використовують методи секвенційного аналізу, LSTM-мережі, графові нейронні
мережі (GNN) та автоенкодери, які можуть враховувати кореляції між даними.
14
Складність класифікації аномалій посилюється у випадку багатовимірних
потоків даних, де ознаки мають різну природу, масштаб та одиниці виміру. У
таких випадках стандартні методи визначення порогів втрачають ефективність, а
залежності між параметрами можуть бути нелінійними. Це зумовлює необхідність
використання методів зменшення розмірності (наприклад, PCA, t-SNE) та
глибинних нейронних мереж, здатних виявляти складні багатовимірні структури
даних.
Важливо також враховувати часову динаміку даних. У потоках, що
змінюються з часом, аномалії можуть виникати не лише через відхилення
поточного значення, а й через зміну тенденції або періодичності. У таких
випадках доцільно застосовувати гібридні підходи, які поєднують методи аналізу
часових рядів із глибинним навчанням для моделювання поведінки системи у
часовому контексті.
Крім трьох базових типів, у сучасних дослідженнях виділяють також
пов’язані та приховані аномалії, які не мають явних статистичних відхилень, але
проявляються у взаємозв’язках між атрибутами. Для їх виявлення
використовують графові підходи, автоенкодери, варіаційні автоенкодери та
генеративно-змагальні мережі (GAN), які здатні навчатися представленням даних
у латентному просторі.
Підсумовуючи, можна зазначити, що ефективне виявлення аномалій у даних
потребує комплексного підходу, який враховує тип аномалії, природу даних і
контекст їх виникнення. Класифікація аномалій на точкові, контекстні та
колективні є базовою основою для побудови алгоритмів виявлення, однак у
сучасних умовах вона розширюється за рахунок урахування часових і
просторових залежностей, кореляцій між параметрами та багатовимірності
потоків даних.
Таким чином, розуміння природи аномалій і їх типології є вихідною точкою
для розроблення ефективних методів виявлення відхилень у мережевих потоках.
Це створює основу для подальшого використання методів глибинного навчання,
які здатні автоматично виділяти ознаки, виявляти складні зв’язки між
15
параметрами та підвищувати точність і швидкодію систем детекції аномального
трафіку.
1.2 Класифікація методів та підходів виявлення аномалій в даних
Виявлення аномалій є ключовою задачею аналітики даних і машинного
навчання, що дозволяє виявляти нетипові, потенційно небезпечні або неправдиві
записи у великих обсягах інформації. Методи виявлення аномалій поділяються на
декілька основних категорій, серед яких: статистичні, методи на основі відстаней,
щільності, кластеризації, моделей, дерев рішень, а також алгоритми машинного та
глибокого навчання. Кожен із цих підходів має власні переваги, недоліки та сфери
ефективного застосування.
Статистичні методи. Статистичні методи ґрунтуються на припущенні, що
нормальні дані підпорядковуються певному математичному розподілу,
найчастіше - нормальному (гаусовому). У такому випадку спостереження, що
суттєво відхиляються від математичного сподівання, вважаються аномаліями
(рис.1.5).
Наприклад, метод z-оцінки визначає міру відхилення окремої точки від
середнього значення в одиницях стандартного відхилення. Іншим популярним
підходом є метод міжквартильного розмаху (IQR), який визначає межі
нормальних даних як інтервал ([Q1 - 1.5IQR, Q3 + 1.5IQR]) (рис.1.6).
16
а)
б)
Рисунок 1.5 - Приклад статистичного аналізу даних при застосуванні щільностей
ймовірностей розподілів (а) та статистичних діаграм типу «BoxPlot» або типу
«вуса»
Рисунок 1.6 - Ілюстрація виділення аномальних даних при застосуванні
методу міжквартильного розмаху (IQR)
Такі методи прості в реалізації й ефективні для одно- або двовимірних
числових даних, але погано працюють у випадках складних, багатовимірних
структур або у присутності шуму.
17
Методи на основі щільності (Density-Based Methods). Методи цієї групи
оцінюють густину (density) даних у локальному оточенні кожної точки. Основна
ідея полягає в тому, що нормальні дані утворюють області з високою щільністю,
тоді як аномалії розташовані в розріджених регіонах простору ознак. Один із
найвідоміших алгоритмів — Local Outlier Factor (LOF), який порівнює локальну
щільність навколо певної точки з щільністю її сусідів. Якщо густина суттєво
менша — точка класифікується як аномальна. Метод застосовується у задачах
виявлення шахрайських транзакцій або мережевих атак, де нормальні патерни
поведінки утворюють стабільні кластери. Проте LOF є чутливим до вибору
параметра k — кількості сусідів, що може суттєво впливати на результати.
Методи на основі відстаней (Distance-Based Methods). Ці підходи
базуються на припущенні, що аномальні об’єкти знаходяться на значній відстані
від більшості інших точок у багатовимірному просторі. Найпростішим прикладом
є метод k-Nearest Neighbors (k-NN), який вимірює середню або максимальну
відстань від точки до її k найближчих сусідів (рис.1.7).
Рисунок 1.7 - Представлення міри відстані до k-го сусіда для визначення
аномальності даних
Якщо ця відстань перевищує певний поріг, об’єкт вважається аномалією.
Такий підхід використовується у фінансовому моніторингу для виявлення
нетипових транзакцій або у телекомунікаційних мережах для виявлення
невластивої активності користувачів. Головним недоліком є висока
18
обчислювальна складність при роботі з великими наборами даних, адже потрібно
порівнювати кожну точку з усіма іншими.
Методи на основі кластеризації. Алгоритми кластеризації групують дані у
відповідності до подібності, і виявляють аномалії як точки, що не належать до
жодного кластеру або утворюють дуже малі групи. Найпоширенішими підходами
є k-Means, DBSCAN та Gaussian Mixture Models (GMM). Наприклад, DBSCAN
дозволяє виявляти аномалії як об’єкти, що не входять до щільних кластерів, а
GMM оцінює ймовірність належності точки до певного розподілу. У задачах
кібербезпеки це може бути використано для класифікації мережевого трафіку, де
нормальні з’єднання утворюють великі щільні кластери, а підозрілі —
залишаються ізольованими. Основною проблемою кластеризаційних методів є
вибір оптимальних параметрів та їх чутливість до шуму.
Методи на основі моделей (Model-Based Methods). У методах цього типу
будується модель, яка описує нормальну поведінку системи, після чого нові
спостереження перевіряються на ступінь узгодженості з нею. Класичним
прикладом є One-Class SVM (Support Vector Machine) — алгоритм, що
знаходить гіперплощину, яка максимально охоплює нормальні дані, і позначає всі
зовнішні точки як аномальні. Також використовуються Gaussian Mixture Models
(GMM) для оцінювання ймовірності належності даних до нормального розподілу.
Ці методи добре працюють для високовимірних даних і можуть бути застосовані
для виявлення вторгнень у мережах або шахрайських фінансових операцій.
Недоліком є потреба у ретельному налаштуванні параметрів ядра та високі
обчислювальні витрати.
Методи на основі дерев рішень. Методи цієї категорії, такі як Isolation
Forest, базуються на ідеї ізоляції аномалій через ітераційне розбиття простору
ознак за допомогою випадкових порогів. Оскільки аномальні точки легко
відокремити (через їх рідкісність і віддаленість від основної маси даних), вони
мають меншу глибину у дереві, ніж нормальні. Цей підхід не потребує
нормалізації даних, має низьку обчислювальну складність і добре масштабується.
19
Isolation Forest широко використовується для аналізу банківських операцій,
мережевого трафіку та промислових процесів у реальному часі. Однак метод
може втрачати точність, якщо дані містять багато шуму або мають складну
нелінійну структуру.
Узагальнена характеристика проаналізованих методів наведена в табл.1.1.
Як видно з таблиці, традиційні методи (статистичні, кластеризаційні тощо) мають
низку обмежень при роботі з високорозмірними, динамічними та нелінійними
даними, характерними для сучасних інформаційних систем і мережевого трафіку.
Це створює передумови для переходу до нейромережевих підходів, здатних
адаптивно навчатися, ефективно узагальнювати закономірності та виявляти
складні типи аномалій навіть у багатовимірному просторі. Розглянемо ще інші
методи машинного навчання, які демонструють дещо кращі результати.
Методи машинного навчання з учителем (Supervised Learning). Якщо дані
містять мітки (класи), то застосовуються методи навчання з учителем, що
розглядають виявлення аномалій як задачу класифікації. До найпоширеніших
моделей належать Logistic Regression, Decision Trees, Random Forest, Gradient
Boosting Machines (XGBoost, LightGBM) та Support Vector Machines. Такі
алгоритми можуть ефективно працювати при наявності збалансованих
навчальних вибірок або після спеціального підстроювання ваг класів. Наприклад,
у виявленні шахрайства у фінансових транзакціях ці моделі використовуються
для передбачення ймовірності того, що операція є шахрайською. Основним
недоліком є необхідність великої кількості достовірно розмічених даних.
20
Таблиця 1.1 – Порівняльна характеристика методів виявлення аномальних даних
Група
методів Принцип роботи Переваги Недоліки / слабкі місця
Ґрунтуються на аналізі Простота Малоефективні при
ймовірнісного розподілу реалізації, високій розмірності
Статистичні даних, визначенні меж інтерпретованість
нормальної поведінки та результатів, даних; не здатні
методи можливість виявляти складні
виявленні точок, що нелінійні залежності;
виходять за межі швидкого аналізу чутливі до вибору
статистичних параметрів невеликих обсягів
даних параметрів моделі
Методи на Визначають щільність Не потребують
основі розподілу даних апріорних знань про Погано масштабуються
щільності (наприклад, LOF, DBSCAN) структуру даних; при великих обсягах
(Density- та позначають точки з ефективні для даних; складно вибрати
Based) низькою щільністю як кластерів різної параметри щільності;
аномальні форми чутливі до шуму
Не підходять для
Методи на багатовимірних даних
основі Використовують відстань Простота
між об’єктами для концепції, добре через “прокляття
відстаней розмірності”;
(Distance- визначення відхилень працюють у потребують вибору
Based) (наприклад, kNN) низьковимірних
просторах метрики відстані;
низька продуктивність
на великих наборах
Ґрунтуються на розподілі Не здатні точно
даних на кластери (K- Можуть виявляти відокремити складні або
Методи на means, DBSCAN, групи подібних перекриваючі кластери;
основі Hierarchical Clustering) і аномалій; чутливі до вибору
кластеризації виявленні точок, що не інтуїтивно кількості кластерів;
належать до жодного з зрозумілі потребують попередньої
них обробки даних
Створюють модель Не здатні відтворювати
Методи на нормальної поведінки Висока
інтерпретованість; складні нелінійні зв’язки;
основі (лінійна регресія, ARIMA, ефективні при залежні від правильності
моделей Gaussian Mixture Models) і
(Model-Based) порівнюють нові дані з наявності моделі; важко
апріорних знань адаптуються до змінних
очікуваними умов
Схильні до перенавчання;
Будують ієрархічну модель Висока швидкість не завжди ефективно
Методи на розгалужень на основі навчання; працюють із
основі дерев
рішень критеріїв інформаційного можливість висококорельованими або
приросту (наприклад, обробки змішаних сильно дисбалансованими
(Decision Tree-
Based) Isolation Forest, Random типів даних; добре даними; обмежена
Forest) підходять для здатність до
великих наборів моделювання складних
нелінійних аномалій
21
Напівконтрольовані та безконтрольні методи (Semi-Supervised &
Unsupervised Learning). У випадках, коли доступні лише нормальні зразки,
використовуються напівконтрольовані або безконтрольні методи. Одним із
найефективніших інструментів є автоенкодери (autoencoders) — нейронні
мережі, які навчаються стискати й відновлювати дані. Якщо точка суттєво
відрізняється від навчального набору, помилка реконструкції буде великою, що
вказує на аномалію. Інші підходи включають Principal Component Analysis
(PCA) та Self-Organizing Maps (SOM). Вони застосовуються у задачах
промислового моніторингу, де важливо відстежувати відхилення у поведінці
системи без попередніх прикладів аномалій.
Методи на основі часових рядів. Аномалії в часових рядах — це сплески,
зміни тренду чи періодичності сигналу, що відрізняються від звичної динаміки
процесу. Для їх виявлення використовують сучасні нейронні підходи — Long
Short-Term Memory (LSTM), Temporal Convolutional Networks (TCN).
Наприклад, у фінансових системах LSTM дозволяє виявляти різкі зміни в обсягах
операцій або нетипові шаблони поведінки користувачів. Такі методи мають
високу прогностичну здатність, але потребують великої кількості даних і значних
обчислювальних ресурсів.
Глибоке навчання (Deep Learning) відкриває нові можливості для роботи зі
складними нелінійними залежностями у великих наборах даних. Алгоритми, такі
як Convolutional Neural Networks (CNN), Recurrent Neural Networks (RNN),
Variational Autoencoders (VAE) та Generative Adversarial Networks (GAN),
здатні автоматично виділяти високорівневі ознаки. Наприклад, GAN можна
навчити на нормальних зразках, а потім використовувати генератор для виявлення
відмінностей між реальною і синтетичною поведінкою системи. Такі моделі
застосовуються у відеоспостереженні, розпізнаванні дефектів, кібербезпеці та
автономних транспортних системах. Основним обмеженням є потреба у великій
кількості обчислювальних ресурсів та часу на навчання.
Вибір оптимального методу виявлення аномалій визначається природою
даних, рівнем їх розміченості, розміром вибірки та типом завдання. Наприклад,
22
для статичних фінансових транзакцій ефективними є ансамблеві алгоритми
(Random Forest, XGBoost), для часових процесів — рекурентні мережі (LSTM), а
для зображень — згорткові нейронні мережі (CNN). У сучасних системах безпеки
перевагу надають гібридним підходам, які поєднують різні методи виявлення
аномалій, що дозволяє забезпечити більш надійну роботу при обробці великих і
різнорідних даних.
1.3 Інструментальні засоби виявлення аномалій
Виявлення аномалій у сучасних інформаційних системах неможливе без
використання ефективних інструментальних засобів, які забезпечують зручне
збирання, аналіз і візуалізацію даних. Ці засоби поєднують можливості
математичного моделювання, машинного навчання, статистичного аналізу та
глибоких нейронних мереж. Основна мета використання таких інструментів
полягає у створенні автоматизованих систем моніторингу, що дозволяють
виявляти відхилення у поведінці користувачів, технічних пристроїв або
програмних компонентів у реальному часі.
Одним із найбільш розповсюджених середовищ та інструментів для
побудови моделей виявлення аномалій є мова програмування Python із його
потужною екосистемою бібліотек. Зокрема, scikit-learn надає широкий спектр
алгоритмів для статистичного аналізу, кластеризації, побудови дерев рішень,
ансамблевих методів, зокрема Random Forest та Isolation Forest. Такі засоби
дозволяють реалізувати як контрольовані, так і неконтрольовані підходи до
виявлення аномалій, включаючи методи на основі щільності (LOF) чи відстані (k-
NN). Перевагою бібліотеки є простота реалізації, висока швидкість обчислень і
зручна інтеграція з іншими аналітичними інструментами.
Важливу роль у виявленні складних аномалій відіграють бібліотеки
TensorFlow та PyTorch, які дозволяють створювати та навчати нейронні мережі
різних архітектур — автоенкодери, LSTM, CNN, GAN тощо. Ці фреймворки
23
використовуються для розроблення моделей глибокого навчання, здатних
виявляти приховані закономірності у високорозмірних або неструктурованих
даних, таких як зображення, відео, звукові сигнали чи телеметричні дані
промислових систем. TensorFlow має розвинуту екосистему для візуалізації
навчання (TensorBoard) та оптимізації продуктивності на GPU, що робить його
придатним для наукових і промислових досліджень.
Для задач безконтрольного виявлення аномалій, що не потребують великих
обчислювальних ресурсів, активно застосовується бібліотека PyOD (Python
Outlier Detection). Вона реалізує понад 30 сучасних алгоритмів — від класичних
статистичних методів до ансамблевих і глибоких моделей. PyOD дозволяє
проводити експерименти, комбінувати підходи, проводити порівняння
ефективності моделей і візуалізувати результати за допомогою зручних графічних
засобів. Завдяки сумісності з scikit-learn та TensorFlow, бібліотека легко
інтегрується у будь-який аналітичний процес.
Бібліотека PyOD (Python Outlier Detection) є одним із найпотужніших і
найпопулярніших інструментів для виявлення аномалій у Python. Вона
розроблена спеціально для задач аналізу даних, де необхідно виявити нетипові
об’єкти або відхилення у великих вибірках. PyOD реалізує широкий спектр
алгоритмів — від класичних статистичних методів (наприклад, z-score,
Mahalanobis distance) до сучасних моделей машинного навчання, таких як Isolation
Forest, One-Class SVM, AutoEncoder, DeepSVDD та багато інших. Завдяки
уніфікованому інтерфейсу, сумісному з бібліотекою scikit-learn, PyOD дозволяє
дослідникам швидко тестувати, порівнювати та комбінувати різні алгоритми для
пошуку оптимального рішення конкретної задачі.
Однією з ключових переваг PyOD є підтримка ансамблевих методів і
гібридних підходів, які поєднують кілька базових алгоритмів для підвищення
точності виявлення аномалій. Наприклад, моделі Feature Bagging або LSCP
(Locally Selective Combination of Parallel Outlier Detectors) дозволяють об’єднувати
результати кількох алгоритмів, підвищуючи стійкість до шуму та помилок у
даних. Такі можливості роблять PyOD придатним для роботи з реальними
24
наборами даних, де аномалії можуть мати різну природу — від неочікуваних змін
у фінансових транзакціях до несправностей у промислових сенсорах. Крім того,
бібліотека підтримує автоматичне масштабування для великих вибірок, що робить
її ефективною навіть у задачах із мільйонами записів.
З практичної точки зору, PyOD широко застосовується у сфері кібербезпеки,
фінансового моніторингу та промислової аналітики. У системах виявлення
шахрайства (fraud detection) бібліотека дозволяє ідентифікувати підозрілі операції
шляхом побудови моделей поведінки користувачів і виявлення транзакцій, які
відхиляються від типових шаблонів. В інформаційній безпеці PyOD
використовується для аналізу мережевого трафіку та виявлення потенційних
вторгнень або зловмисних дій. У виробничих системах бібліотека допомагає
виявляти аномальні показники сенсорів, що можуть свідчити про несправності
обладнання або зниження його ефективності.
Ще однією перевагою бібліотеки PyOD є інтеграція з інструментами
візуалізації та глибокого навчання. Користувач може легко візуалізувати
результати виявлення аномалій, побудувати розподіл ймовірностей або порівняти
продуктивність моделей за допомогою ROC-кривих та матриць переплутування.
PyOD також інтегрується з TensorFlow і Keras, що дозволяє створювати власні
нейромережеві архітектури для виявлення складних або прихованих аномалій. У
поєднанні з інструментами на кшталт Pandas, NumPy та Matplotlib бібліотека
забезпечує повний цикл аналітики — від підготовки даних до інтерпретації
результатів. Таким чином, PyOD є універсальним інструментом, який поєднує
простоту використання, високу гнучкість і наукову достовірність результатів.
Нейромережеві структури, такі як AutoEncoder, LSTM, CNN та ін. надають
значні переваги у виявленні аномалій порівняно з класичними методами
бібліотеки PyOD. Вони здатні виявляти складні, нелінійні залежності між
ознаками, що дозволяє точніше розпізнавати приховані закономірності у даних.
Це робить нейромережі особливо ефективними для багатовимірних,
високорозмірних та неструктурованих даних, таких як фінансові транзакції,
часові ряди або зображення дефектів виробів.
25
На відміну від методів PyOD, які працюють переважно на структурованих
числових даних, нейромережеві підходи здатні адаптуватися до динамічно
змінюваних потоків даних та прогнозувати відхилення від нормальної поведінки
системи. Це дозволяє використовувати їх у реальному часі для виявлення
складних аномалій, що не піддаються простому статистичному або кластерному
аналізу, підвищуючи загальну точність і надійність системи.
Крім того, нейромережі дозволяють поєднувати різні джерела даних —
числові, текстові та візуальні — у єдину модель, що дає змогу отримувати більш
комплексний та узгоджений аналіз аномалій. Завдяки цьому підходу можна
розпізнати навіть ті аномальні події, які не проявляються у жодному окремому
джерелі даних, але виявляються при інтеграції інформації, що значно підвищує
ефективність виявлення шахрайських операцій або несправностей обладнання.
Ще однією значущою перевагою нейромережевих методів є їх здатність до
самонавчання та покращення точності з часом. Моделі можуть оновлюватися у
міру надходження нових даних, автоматично підлаштовуючись під змінні
закономірності і зменшуючи кількість помилкових спрацювань. У порівнянні з
PyOD, де ефективність алгоритмів обмежується структурованістю даних і
простотою моделей, нейромережі пропонують значно більшу гнучкість,
масштабованість і потенціал для досягнення високої продуктивності у складних і
динамічних системах.
1.4 Аналіз практичних задач як обробка багатовимірних потоків даних
Розглянемо особливості обробки багатовимірних даних на одній із
прикладних задач, наприклад виявлення аномалій в потоках даних комп’ютерних
мереж.
Сучасні мережеві середовища генерують величезну кількість даних, що
характеризуються багатовимірністю: кожен пакет або сеанс має безліч ознак,
включаючи IP-адресу джерела та отримувача, порт, протокол, обсяг переданих
26
даних, часові позначки, тривалість сеансу та інші метрики. Виявлення аномалій у
таких багатовимірних потоках є складним завданням, оскільки аномальна
активність часто не проявляється у жодній окремій ознаці, а формується через
комбінацію нетипових значень кількох параметрів одночасно. Наприклад,
одночасне підвищення кількості одночасних з’єднань та збільшення об’єму
пакетів може сигналізувати про DDoS-атаку, навіть якщо кожна окрема ознака
виглядає нормально.
Для вирішення задачі багатовимірного аналізу трафіку застосовуються
методи виявлення аномалій у високорозмірних просторах, такі як One-Class SVM,
Isolation Forest, Local Outlier Factor, AutoEncoder або інші нейромережеві
структури. Вони дозволяють визначити нетипові точки у багатовимірному
просторі, що відхиляються від нормального патерну поведінки мережі.
Особливу увагу при багатовимірному аналізі приділяють кореляціям між
ознаками. Наприклад, атака типу сканування портів може одночасно змінювати
розподіл IP-адрес і частоту запитів до різних портів. Класичні одномірні методи,
що аналізують кожну ознаку окремо, часто пропускають такі аномалії.
Використання алгоритмів, здатних враховувати взаємозв’язки між ознаками,
дозволяє підвищити точність детекції та знизити число хибних спрацювань.
Для потокових даних застосовують онлайн-версії алгоритмів
багатовимірного виявлення аномалій, які здатні адаптуватися до змін у розподілі
нормального трафіку в режимі реального часу. Це особливо важливо для сучасних
мережевих систем, де патерни активності користувачів і сервісів можуть
змінюватися динамічно протягом дня або тижня.
Крім того, багатовимірний аналіз дає можливість поєднувати різні типи
даних, що надходять від мережевих сенсорів, серверних логів, IDS/IPS-систем та
інших джерел. Це дозволяє створювати єдину багатовимірну модель нормальної
поведінки, що підвищує чутливість до складних або прихованих аномалій, які
проявляються тільки при одночасному порушенні кількох ознак. Такий підхід
особливо ефективний для виявлення складних багаторівневих атак, які
маскуються під нормальну активність користувачів.
27
Загалом, використання багатовимірного аналізу у виявленні аномалій
мережевого трафіку дозволяє значно підвищити точність та надійність систем
безпеки, виявляти складні та приховані загрози на ранніх стадіях та адаптуватися
до динамічних змін у поведінці мережевих систем. Комбінація методів
машинного навчання, статистичного моделювання та потокового аналізу
забезпечує ефективне рішення для сучасних високонавантажених і
багатовимірних мереж.
Мережеві атаки можна класифікувати за різними критеріями, такими як
метод проведення, об’єкт атаки, цільова мета, використовувана вразливість та
інші характеристики. На рис.1.8 представлені найбільш поширені типи атак, серед
яких виділяються чотири основні категорії:
• атаки на браузер («browser») – 36%: пов’язані з використанням уразливостей
веб-браузерів для отримання несанкціонованого доступу або виконання
шкідливого коду на комп’ютері користувача;
• метод грубої сили («brute force») – 19%: полягає у послідовному переборі всіх
можливих комбінацій паролів або ідентифікаторів з метою отримати доступ
до захищеної системи. Цей підхід є одним із найпростіших, але водночас
трудомістких способів несанкціонованого доступу;
• атаки типу відмови в обслуговуванні («denial of service», 16%): спрямовані на
тимчасове або повне блокування роботи служби, мережі, комп’ютерної
системи або веб-сайту, шляхом перевантаження ресурсів цільового об’єкта або
порушення його нормальної роботи;
• атаки на SSL/TLS – 11%: об’єднують різні типи атак або експлуатації
вразливостей, що виникають під час використання протоколів SSL або TLS
для забезпечення безпечного обміну даними.
28
Рисунок 1.8 - Представлення найбільш поширених мережевих атак
Виявлення атак в комп’ютерних мереж можна розглядати як задачу
виявлення аномального трафіку, що потребує складних моделей та систем для
виявлення нелінійних залежностей в багатовимірних даних. З такою задачею
успішно може справлятися підхід, який базується на нейромережевому підході
щодо побудови моделей обробки даних та їх відповідної класифікації.
1.5 Методи виявлення аномальних даних як інструмент для реалізації
систем IDS
Існують різні методи та підходи для побудови та впровадження ефективних
систем виявлення мережевих вторгнень (IDS). Використання методів машинного
навчання (ML) у створенні таких систем демонструє високий потенціал та
забезпечує суттєві переваги для підвищення їх точності та продуктивності. Серед
існуючих підходів до IDS на основі аномалій, включаючи ML-IDS (IDS на базі
машинного навчання), K-IDS (IDS на основі знань), DM-IDS (IDS на основі
аналізу даних) та SA-IDS (IDS на основі статистичних аномалій), найбільш
перспективним є ML-IDS. Це пояснюється його здатністю поступово підвищувати
ефективність виявлення шляхом безперервного навчання та адаптації до змінних
умов мережевого середовища (рис.1.9).
29
Рисунок 1.9 - Класифікація загальних підходів щодо класифікації методів IDS
Основні переваги застосування методів машинного навчання для систем
виявлення мережевих вторгнень (IDS) полягають у наступному.
Виявлення нових загроз. Алгоритми машинного навчання дозволяють
створювати моделі, здатні виявляти навіть раніше невідомі атаки. На відміну від
традиційних правил виявлення, які обмежені набором відомих підозрілих
шаблонів, ML-моделі здатні виявляти аномалії в мережевій активності, що
вказують на нові загрози.
Зменшення хибних спрацьовувань. Моделі машинного навчання
забезпечують підвищену точність детекції атак, що дозволяє зменшити кількість
хибних тривог. Це дозволяє адміністраторам мережі концентруватися на реальних
загрозах, підвищуючи ефективність реагування.
Адаптивність до змін. ML-моделі можуть автоматично підлаштовуватися
під зміни у патернах мережевої активності та нові типи атак. Завдяки цьому IDS
стає більш гнучкою та ефективною у довгостроковій перспективі.
Аналіз великих обсягів даних. Машинне навчання дозволяє обробляти великі
потоки мережевого трафіку та виявляти нетипові зміни в активності, які можуть
свідчити про атаки, що неможливо ефективно реалізувати традиційними
методами.
30
Інтеграція з іншими підходами. ML-методи можуть поєднуватися з
класичними правилами та статистичними алгоритмами в IDS, створюючи
комплексні системи з високим рівнем надійності та точності детекції.
Попередження атак «нуль-дня» та внутрішніх загроз. Моделі машинного
навчання здатні виявляти аномалії, пов’язані з використанням раніше невідомих
вразливостей або підозрілу поведінку користувачів всередині мережі. Це
забезпечує раннє реагування та мінімізацію потенційної шкоди.
Раннє виявлення та оптимізація ресурсів. ML-системи дозволяють
детектувати загрози на ранніх стадіях, а також концентрувати обчислювальні
ресурси на найбільш критичних подіях, зменшуючи навантаження на сервери та
мережеве обладнання.
Зменшення людського втручання. Ефективна система IDS на основі
машинного навчання може частково автоматизувати реагування на загрози,
знижуючи потребу у постійному контролі з боку адміністраторів.
Загалом, машинне навчання значно підвищує ефективність систем
виявлення вторгнень та стає ключовим компонентом сучасних стратегій
забезпечення інформаційної безпеки. ML-IDS здатні адаптуватися до динамічних
змін мережевого середовища та виявляти складні аномалії, що робить їх
невід’ємним інструментом для захисту сучасних інформаційних систем.
Серед різноманітних моделей машинного навчання окремо виділяються
нейромережеві моделі, які демонструють високу ефективність у виявленні
аномалій у багатовимірних просторах, що робить їх перспективним інструментом
для побудови сучасних систем виявлення вторгнень (IDS) та розв’язку інших
задач. На відміну від класичних методів машинного навчання, які часто мають
обмеження у здатності моделювати складні нелінійні взаємозв’язки між ознаками,
нейронні мережі здатні автоматично навчатися виявляти приховані патерни в
даних навіть у високорозмірних просторах. Використання архітектур глибокого
навчання, таких як автоенкодери, згорткові та рекурентні нейронні мережі,
дозволяє формувати узагальнені моделі поведінки мережевого трафіка та
своєчасно фіксувати навіть незначні відхилення, які можуть свідчити про початок
31
кібератаки. Завдяки багаторівневій структурі та використанню нелінійних
активацій, вони здатні узагальнювати інформацію, виділяти закономірності навіть
у зашумлених або частково відсутніх даних, а також ефективно працювати у
високорозмірних просторах, де класичні методи втрачають точність і стійкість.
Крім того, нейромережеві підходи мають високу гнучкість і здатність до
самонавчання, що забезпечує їхню адаптацію до нових типів загроз без
необхідності ручного оновлення правил або попередньо визначених сигнатур. Це
особливо важливо в умовах швидко змінюваного кіберсередовища, де традиційні
методи часто не встигають реагувати на нові вектори атак. Завдяки здатності
глибинних моделей працювати з великими обсягами неструктурованих і
багатовимірних даних, нейронні мережі стають ключовим інструментом для
створення інтелектуальних IDS-систем нового покоління, які поєднують високу
точність, адаптивність та стійкість до шуму.
1.6 Висновки
Вданому розділі проведено аналіз сучасних підходів до виявлення аномалій
у даних, зокрема у контексті забезпечення інформаційної безпеки. Було показано,
що традиційні методи детекції, такі як правила на основі знань та статистичні
алгоритми, мають обмежену ефективність і не здатні адекватно працювати зі
складними багатовимірними даними.
Методи машинного навчання, особливо нейромережеві структури,
демонструють значний потенціал завдяки здатності виявляти приховані
закономірності та аномалії у нелінійних і багатовимірних даних. Вони можуть
поступово підвищувати точність детекції та адаптуватися до змін у структурі
мережевої активності.
У задачах виявлення мережевих вторгнень нейромережі ефективно
працюють з багатовимірними потоками даних, аналізуючи одночасно численні
параметри пакетів і сеансів. Це дозволяє своєчасно виявляти складні атаки,
32
внутрішні загрози та атаки «нуль-дня», що важко реалізувати традиційними
методами.
Таким чином, нейромережеві підходи для виявлення аномалій у
багатовимірних потоках даних є перспективними та практично значущими. Вони
забезпечують високу точність, адаптивність, інтеграцію різних джерел даних і
зменшення хибних спрацьовувань, що робить їх ключовим інструментом
сучасних систем аналізу даних.
В наступних розділах роботи буде продемонстровані позитивні можливості
нейромережевих моделей для виявлення аномальних даних на прикладах
виявлення потенційних загроз при проведенні банківських транзакцій та аналізі
комп’ютерного мережевого трафіку.
33
2 ПОБУДОВА МОДЕЛІ АВТОЕНКОДЕРА ДЛЯ ВИЯВЛЕННЯ
АНОМАЛІЙ У БАГАТОВИМІРНИХ ДАНИХ
2.1 Формалізація задачі виявлення аномалій у багатовимірних потоках
даних
Задача виявлення аномалій у багатовимірних потоках даних є ключовою
проблемою сучасної аналітики даних, зокрема у сфері кібербезпеки, моніторингу
мережевого трафіка, фінансових транзакцій, промислових систем та Інтернету
речей. Формально її можна визначити як задачу ідентифікації об’єктів або подій,
що істотно відрізняються від більшості спостережень у багатовимірному просторі
ознак. Такі відхилення, або аномалії, можуть вказувати на потенційні загрози, збої
в системах чи нештатну поведінку користувачів.
Нехай множина спостережень представлена як , де кожен
вектор хі описує об’єкт у m-вимірному просторі ознак. Мета полягає у побудові
функції f(xi), яка оцінює ступінь аномальності об’єкта, або у визначенні порогу τ,
за яким об’єкти поділяються на нормальні (f(xi) < τ) та аномальні (f(xi) >= τ). У
випадку потокових даних (stream data) задача ускладнюється динамічністю
середовища: структура даних може змінюватися з часом, що потребує адаптивних
методів навчання в реальному часі.
Особливістю багатовимірних потоків є висока корельованість та складна
нелінійна взаємодія між окремими ознаками. Це призводить до явища “прокляття
розмірності”, коли традиційні методи виявлення аномалій (на основі статистики,
відстаней або щільності) втрачають ефективність. У таких умовах класичні
евристики перестають адекватно моделювати поведінку даних, а багатовимірна
динаміка призводить до необхідності побудови моделей, здатних до глибокого
узагальнення та навчання на складних структурованих патернах.
У цьому контексті застосування методів глибинного навчання стає
обґрунтованим і перспективним рішенням. Нейромережеві архітектури — такі як
автоенкодери, рекурентні та згорткові нейронні мережі — дозволяють ефективно
34
моделювати внутрішню структуру даних, виділяти латентні ознаки та адаптивно
реагувати на зміни в потоці. Завдяки цьому формалізація задачі переходить від
простого порівняння відстаней до побудови багатовимірного нелінійного
простору ознак, у якому аномальні об’єкти можна чітко відокремити від
нормальних на основі реконструкційної похибки, прогнозної помилки або
відхилення від вивченого розподілу.
Таким чином, формалізація задачі виявлення аномалій у багатовимірних
потоках даних передбачає не лише математичне визначення критерію
аномальності, але й створення адаптивної інтелектуальної моделі, здатної
навчатися в умовах змінних вхідних розподілів та високої розмірності. Саме
глибинні нейромережеві методи забезпечують найбільш адекватне представлення
таких даних, дозволяючи ефективно вирішувати практичні завдання виявлення
вторгнень, фінансових шахрайств чи технічних збоїв у складних кіберфізичних
системах.
2.2 Опис та обґрунтування архітектури системи обробки даних
методами ML
Методи машинного навчання з учителем базуються на використанні
алгоритмів, які навчають модель розпізнавати закономірності в даних, що містять
ознаки та відповідні мітки. Після процесу навчання така модель здатна
прогнозувати мітки для нових, раніше невідомих даних на основі їхніх ознак (рис.
2.1).
35
Рисунок 2.1 - Ілюстрація формування та застосування моделі ML для
аналізу даних
Процес побудови системи аналізу даних на основі алгоритмів глибинного
навчання охоплює низку послідовних етапів обробки. Кожен із них спрямований
на забезпечення якості, узгодженості та інформативності даних, необхідних для
ефективного навчання нейронної моделі. Загальна архітектура системи
передбачає такі основні стадії.
1. Збирання та отримання даних (Data Acquisition). Першим етапом є
отримання даних із різних джерел, що характеризують стан системи або процесу.
Дані можуть надходити:
• зі сенсорів або пристроїв IoT у режимі реального часу (stream data);
• із журналів подій (logs), баз даних, систем моніторингу або SCADA;
• із відкритих наборів даних для навчання та тестування моделі.
На цьому етапі формуються первинні таблиці або потоки багатовимірних
показників, де кожен запис містить часову мітку та набір числових чи
категоріальних ознак. Основна мета — забезпечити повноту та цілісність даних, а
також фіксацію усіх необхідних параметрів для подальшого аналізу.
2. Очистка даних (Data Cleaning / Preprocessing). На практиці сирі дані
часто містять пропущені значення, дублікати, шум чи некоректні спостереження.
Етап очищення передбачає:
36
• видалення або корекцію пропущених значень (методи інтерполяції,
заповнення середніми/медіанними значеннями);
• усунення дублікатів та неузгоджених записів;
• видалення викидів (outliers), якщо вони спричинені помилками вимірювань,
або ж їх позначення для аналізу;
• перетворення форматів (наприклад, дати у стандарт ISO, категоріальні у
числові);
• синхронізацію часових рядів — якщо різні сенсори мають різні частоти
оновлення.
Мета етапу — підготувати якісний, узгоджений набір даних без артефактів,
що можуть спотворити навчання моделі.
3. Нормалізація та масштабування даних (Data Normalization / Scaling).
Нейронні мережі є чутливими до масштабу числових значень ознак. Тому перед
подачею на модель дані необхідно привести до єдиного діапазону. Типові методи:
• Min–Max Scaling – перетворення діапазону ознак до [0, 1];
• Z-score нормалізація – центрування навколо нуля з одиничною дисперсією;
• Robust Scaling – масштабування відносно медіани та інтерквартильного
розмаху (IQR) для стійкості до викидів.
Нормалізація забезпечує стабільність градієнтного спуску під час навчання
та підвищує збіжність моделі.
4. Формування ознак (Feature Engineering)
На цьому етапі дані перетворюються у форму, що найкраще відображає
приховані закономірності процесу. Основні дії:
• створення похідних ознак (наприклад, зміни між сусідніми
вимірюваннями, ковзні середні, коефіцієнти кореляції);
• агрегування даних у часових вікнах (sliding window), що дозволяє
враховувати часовий контекст;
• кодування категоріальних ознак (one-hot, label encoding);
37
• виділення статистичних характеристик у межах вікна — середнє,
дисперсія, мінімум, максимум, тощо;
• відбір інформативних ознак (через кореляційний аналіз, методи PCA, або
автоматичний відбір).
Ретельно сформовані ознаки суттєво підвищують здатність моделі
розрізняти нормальні та аномальні патерни.
5. Аналіз та візуалізація даних (Exploratory Data Analysis — EDA). Це
аналітичний етап, що допомагає зрозуміти природу даних до побудови моделі:
• виявлення трендів і сезонності у часових рядах;
• оцінка статистичних розподілів кожної ознаки;
• виявлення потенційних кореляцій між змінними;
• побудова графіків і матриць кореляцій для оцінки зв’язків між показниками;
• попереднє виявлення аномалій вручну (візуально чи за статистичними
критеріями).
Етап EDA дає змогу визначити, які особливості даних важливі для моделі, а
також підказує, який тип нейромережевої архітектури краще використовувати
(наприклад, рекурентну або згорткову).
6. Розділення даних на навчальну, валідаційну та тестову вибірки. Перед
навчанням моделі дані поділяються на:
• Training set (навчальна вибірка) - використовується для оптимізації
параметрів моделі;
• Validation set (валідаційна вибірка) - для підбору гіперпараметрів і
контролю перенавчання;
• Test set (тестова вибірка) — для фінальної оцінки узагальнюючої здатності
моделі.
Для часових рядів важливо дотримуватися хронологічного порядку (тобто
розділення не повинно перемішувати послідовність подій).
38
7. Навчання моделі глибинного навчання (Model Training). Після попередніх
етапів формується підготовлений набір даних, який подається на обрану нейронну
архітектуру (наприклад, Autoencoder, CNN ін.). Під час навчання:
• виконується оптимізація ваг мережі методом градієнтного спуску;
• застосовуються регуляризаційні техніки (dropout, batch normalization);
• проводиться моніторинг метрик втрат (loss) на тренувальній і валідаційній
вибірках.
Мета етапу — навчити модель відтворювати нормальну поведінку системи,
щоб подальше відхилення від неї трактувалося як аномалія.
8. Оцінювання та інтерпретація результатів. Після навчання модель
тестується на відкладених даних. Основні метрики:
• Precision / Recall / F1-score - для класифікації нормальних і аномальних
прикладів;
• ROC-AUC або PR-AUC - для оцінки дискримінативної здатності;
• Reconstruction error або Prediction error - для автоенкодерів і моделей
прогнозування;
Візуалізація латентного простору - для розуміння структури виявлених
патернів.
9. Інтеграція та розгортання (Deployment). Фінальна модель інтегрується у
робоче середовище:
• обробляє потоки даних у реальному часі;
• обчислює показники аномальності для нових спостережень;
• надсилає попередження у разі перевищення порогу аномальності;
• може періодично оновлюватися з новими даними (retraining).
Ефективна інтеграція забезпечує здатність системи працювати у
виробничому середовищі з мінімальною затримкою.
Наведені етапи обробки даних представлено у табл.2.1.
39
Таблиця 2.1 - Основні етапи обробки даних та підготовки моделі ML
Етапи обробки даних Основне призначення
1. Отримання даних Збір та потокова передача даних
2. Передобробка Очищення, синхронізація, заповнення пропусків
3. Нормалізація Приведення до єдиного масштабу
4. Інженерія ознак Побудова нових інформативних ознак
5. Аналіз Виявлення закономірностей, кореляцій
6. Розділення даних та
Побудова моделі глибинного навчання
навчання нейромережі
7. Оцінювання моделі Тестування та вибір оптимальної конфігурації
Потокова обробка, виявлення аномалій у
8. Розгортання моделі
реальному часі
На основі наведених етапів обробки даних на рис. 2.2 представлено
архітектуру, що відображає життєвий цикл машинного навчання —
структурований процес, який визначає етапи розроблення, розгортання та
супроводу моделей машинного навчання (ML). Цей цикл включає послідовність
кроків, спрямованих на забезпечення високої точності, надійності та
масштабованості створюваної моделі.
Рисунок 2.2 - Архітектура системи як життєвий цикл моделі машинного навчання
40
2.3 Архітектура нейронних мереж для оброки даних
Глибинні нейронні мережі (Deep Neural Networks, DNN) — це клас моделей
машинного навчання, що складаються з багатьох шарів штучних нейронів. Кожен
нейрон отримує числові значення на вході, обчислює зважену суму, застосовує
нелінійну активаційну функцію і передає результат на наступний шар (рис.2.3).
а) б)
Рисунок 2.3 - Побудова багатошарових перцептронних моделей мереж (а –
проста нейронна мережа; б – глибинна нейронна мережа)
Глибинні архітектури дозволяють виявляти складні залежності у
багатовимірних даних та навчатися багаторівневим репрезентаціям ознак.
Ключові терміни, що використовуються при описі нейронних мереж:
Input layer (вхідний шар): приймає набір ознак, що описують об’єкт або
спостереження;
Hidden layers (приховані шари): виконують нелінійні перетворення вхідних
даних та виявляють складні патерни.
Output layer (вихідний шар): формує прогноз або реконструкцію в
залежності від задачі.
Weights (ваги) та biases (зміщення): параметри нейронів, які оптимізуються
під час навчання.
Activation function (активаційна функція): нелінійна функція, наприклад
ReLU, Sigmoid або Tanh, що дозволяє мережі моделювати складні залежності.
41
Принцип роботи глибинного навчання базується на функціонуванні
перцептрона — базової одиниці будь-якої нейронної мережі, де виконуються
основні математичні обчислення. Перцептрон є найпростішим типом штучного
нейрона та служить фундаментом для побудови складніших архітектур нейронних
мереж. Його основне призначення полягає у розв’язанні бінарних задач
класифікації, зокрема у визначенні належності вхідного об’єкта до певного класу
або розпізнаванні зразків (рис. 2.4).
Рисунок 2.4 - Представлення функціонування перцептрона
Dense (Fully Connected) нейронні мережі. Dense network, або повнозв’язна
нейромережа, характеризується тим, що кожен нейрон одного шару підключений
до всіх нейронів наступного шару. Ця структура забезпечує високу здатність
моделі до навчання складних нелінійних залежностей, але може вимагати значних
обчислювальних ресурсів для великої кількості ознак.
У Dense мережі сигнал передається послідовно через шари нейронів. На
кожному кроці відбувається:
• обчислення зваженої суми вхідних сигналів;
• додавання зсуву (bias).
Функція активації (Activation Function) — це математичне перетворення,
яке застосовується до виходу нейрона після обчислення зваженої суми входів і
додавання зміщення (bias) (на рис.2.4 – «Step Function»). Вона визначає, якою
42
буде вихідна величина нейрона, і вносить нелінійність у модель, що дозволяє
мережі навчатися складним закономірностям.
Без функції активації нейронна мережа була б простою лінійною
комбінацією вхідних ознак, незалежно від кількості шарів. Тобто, мережа без
активацій не змогла б ефективно моделювати нелінійні залежності у даних.
Призначення функції активації - введення нелінійності. Основне завдання
— надати мережі здатність моделювати складні, нелінійні функції. Завдяки цьому
нейронна мережа може виявляти складні закономірності, які не піддаються
простому лінійному опису.
Деякі функції активації дозволяють нейрону «активуватися» тільки тоді,
коли сигнал перевищує певний поріг. Це важливо для фільтрації слабких сигналів
та посилення значущих ознак.
Функція активації обмежує вихід нейрона у певному діапазоні, наприклад,
[0, 1] або [-1, 1]. Це стабілізує навчання, особливо у глибоких мережах, та
запобігає надмірному росту значень сигналів.
Нелінійні функції активації, такі як ReLU або Sigmoid, дозволяють
градієнтам проходити через мережу більш стабільно, що сприяє ефективнішому
навчання методом градієнтного спуску.
Основні типи функцій активації зображені на рис.2.5., серед яких
виділяють:
Sigmoid (сигмоїда): вихід у діапазоні [0, 1]. Добре підходить для
ймовірнісних задач (класифікація). Недоліки: «затухання градієнта» для великих
позитивних або негативних входів;
Tanh (гіперболічний тангенс): вихід у діапазоні [-1, 1]. Центрованість
навколо нуля покращує збіжність у порівнянні з Sigmoid, але теж схильна до
затухання градієнта;
ReLU (Rectified Linear Unit): вихід = max(0, x). Найпоширеніша функція для
прихованих шарів у глибоких мережах. Проста, швидка та ефективна, але іноді
нейрони «вмирають», якщо градієнт постійно дорівнює нулю;
43
Leaky ReLU / Parametric ReLU: варіанти ReLU, що дозволяють невеликий
градієнт для негативних значень, запобігаючи «смерті» нейронів;
Softmax: використовується у вихідному шарі для багатокласової
класифікації. Перетворює вектор чисел у ймовірності, що сумуються до 1.
Рисунок 2.5 - Деякі поширені функції активації в ML
Навчання нейронної мережі — це процес підбору значень ваг і зміщень
(bias) у всіх нейронах мережі таким чином, щоб мережа правильно відтворювала
бажані результати для заданих вхідних даних (рис.2.6.). Мета навчання —
мінімізувати різницю між прогнозованим виходом мережі та реальними
значеннями, яка оцінюється за допомогою функції втрат (loss function). Через
повторювану оптимізацію параметрів мережі модель поступово “вчиться”
виявляти закономірності у даних.
У поєднанні прямого та зворотнього поширення забезпечується здатність
нейронної мережі не лише здійснювати прогнозування, але й коригувати власні
помилки. У процесі багаторазового повторення цього циклу мережа поступово
підвищує точність своїх результатів, а кожен повний цикл навчання прийнято
називати епохою.
44
Рисунок 2.6 - Процедура зворотного розповсюдження - back propagation
Процес навчання зазвичай здійснюється методом градієнтного спуску
(gradient descent) та його варіаціями (наприклад, Adam, RMSProp), що полягає у
поступовому коригуванні ваг у напрямку зменшення функції втрат. Для
ефективного навчання дані часто розбивають на батчі і пропускають через
мережу декілька разів (епохи), контролюючи збіжність та запобігаючи
перенавчанню (overfitting) за допомогою регуляризації або ранньої зупинки (early
stopping).
Водночас слід зазначити, що однією з ключових проблем під час побудови
нейронних мереж є перенавчання, яке особливо проявляється при великій
кількості параметрів і недостатньому обсязі навчальних даних.
Перенавчання (overfitting) виникає тоді, коли модель надто точно
запам’ятовує навчальні приклади, замість того щоб узагальнювати
закономірності. У результаті вона демонструє високу точність на тренувальних
даних, але погано працює на нових, раніше невідомих вибірках. Інакше кажучи,
модель стає надто «пристосованою» до конкретного набору даних, що призводить
до зниження її здатності робити коректні прогнози в реальних умовах (рис. 2.7).
45
Рисунок 2.7 - Ілюстрація побудови моделі з властивістю перенавчання –
overfitting
Основними чинниками, що призводять до перенавчання моделі, є кілька
типових причин.
По-перше, надмірна складність архітектури — коли модель має занадто
багато параметрів, вона може почати «запам’ятовувати» випадковий шум або
незначні особливості навчальних даних, які не відображають реальних
закономірностей.
По-друге, обмежений обсяг навчальної вибірки — за недостатньої кількості
прикладів модель надто пристосовується до конкретних даних, втрачаючи
здатність узагальнювати нову інформацію.
По-третє, наявність шуму чи викидів у навчальному наборі може призвести
до того, що модель навчається на нерепрезентативних аномаліях, що спотворює
результати.
Крім того, ігнорування методів регуляризації (таких як L1/L2 або Dropout)
зменшує стійкість моделі до перенавчання.
Одним із найпоширеніших методів боротьби з перенавчанням є
регуляризація Dropout. Її суть полягає в тому, що під час кожної ітерації навчання
випадковим чином «вимикається» частина нейронів разом із їхніми зв’язками, що
запобігає надмірній залежності моделі від окремих елементів мережі. Аргумент
Dropout задається у межах від 0 до 1 і визначає частку нейронів, які тимчасово не
46
беруть участі у навчанні (рис. 2.8). Такий підхід сприяє підвищенню
узагальнювальної здатності моделі та покращує її стійкість на нових даних.
Рисунок 2.8 - Застосування процедури регуляризації Dropout()
Основні етапи застосування регуляризації Dropout передбачають кілька
ключових дій. По-перше, здійснюється випадкове вимкнення нейронів під час
кожної ітерації навчання — кожен нейрон має певну ймовірність бути тимчасово
відключеним, а його ваги не оновлюються в цьому циклі. По-друге, може
виконуватися випадкове вимикання зв’язків між нейронами, що запобігає
надмірній кореляції між ними та сприяє формуванню більш незалежних ознак.
По-третє, параметр ймовірності Dropout визначає частку нейронів, які будуть
вимкнені на кожному кроці (зазвичай у межах 0.2–0.5). Наприклад, при dropout =
0.3 кожен нейрон має 30% шанс бути вимкненим на поточній ітерації.
Основними перевагами методу Dropout є зменшення ризику перенавчання
та підвищення узагальнюючої здатності моделі. Нейронна мережа стає менш
залежною від окремих нейронів або зв’язків, що сприяє рівномірнішому
розподілу ваг і стабільнішому навчанню. Завдяки цьому підходу модель набуває
більшої стійкості до варіацій у даних і демонструє вищу ефективність при
розв’язанні різних прикладних задач, зберігаючи здатність до адаптації в умовах
змін середовища чи вхідних даних.
Навчання нейронної мережі може бути контрольованим (supervised
learning), коли є мітки класів або відомі цільові значення, або неконтрольованим
47
(unsupervised learning), коли мережа сама виявляє структуру даних, наприклад у
випадку автоенкодерів для виявлення аномалій. Крім того, існують методи
напівконтрольованого та підкріплювального навчання, які дозволяють моделі
адаптуватися до нових даних або самостійно покращувати свої прогнози на основі
отриманого досвіду.
Застосування Dense мереж у виявленні аномалій. Dense мережі можна
застосовувати для задач класифікації чи регресії, а також для реконструкції даних.
У задачах виявлення аномалій Dense мережі можуть бути використані як
основний блок у автоенкодерах, де вони навчаються відтворювати нормальні
патерни даних і сигналізують про аномалії через велику помилку реконструкції.
2.4 Параметри якості нейромережевих моделей
У машинному навчанні та оцінюванні продуктивності нейронних мереж
існує низка метрик, що використовуються для аналізу їх ефективності на
навчальних та тестових даних. Вибір конкретних показників визначається типом
задачі (класифікація, регресія тощо) та особливостями даних. Для задач
класифікації, які актуальні при побудові систем IDS, найпоширенішими є:
• Точність (Accuracy) — відсоток об’єктів, правильно класифікованих
моделлю;
• Точність (Precision) — частка об’єктів, коректно визначених як позитивні,
серед усіх об’єктів, позначених як позитивні;
• Повнота (Recall) — відсоток позитивних об’єктів, які модель правильно
виявила серед усіх реальних позитивних прикладів;
• F1-міра (F1-Score) — гармонічне середнє між точністю та повнотою, що
дозволяє оцінити збалансованість цих двох показників.
Графічне та математичне представлення цих метрик наведено на рис. 2.9, де
TP — істинно позитивні, TN — істинно негативні, FP — хибно позитивні та FN —
хибно негативні результати.
48
Рисунок 2.9 - Основні показники ефективності в машинному навчанні
Accuracy (точність) — це один із основних показників ефективності
класифікаційних моделей у машинному навчанні. Він відображає відсоток
правильних прогнозів моделі серед усіх зроблених прогнозів і обчислюється за
формулою:
Accuracy=Кількість правильних прогнозів/Загальна кількість прогнозів.
Для розрахунку точності спершу визначають два ключові параметри:
• Кількість правильних прогнозів — число об’єктів, які модель класифікувала
правильно, тобто передбачений клас збігається з фактичним.
• Загальна кількість прогнозів — загальна кількість об’єктів, для яких модель
зробила класифікаційні передбачення.
Після визначення цих величин вони підставляються у формулу для
обчислення точності.
Наприклад, якщо модель тестувалась на 100 об’єктах і правильно
класифікувала 90 з них, тоді її точність становитиме 90%.
Accuracy=90/100=0.90.
Цей показник використовуватиметься для оцінки ефективності
нейромережевої моделі, розробленої у роботі.
Отже, у цьому прикладі точність (Accuracy) складає 90%. Ця метрика дає
загальне уявлення про якість класифікаційної моделі. Проте при наявності
дисбалансу класів (коли один клас значно перевищує інший за кількістю
49
прикладів) слід оцінювати модель за додатковими показниками, такими як
точність (Precision), повнота (Recall) та F1-міра.
Precision (точність) використовується для оцінки ефективності
класифікаційних моделей у задачах, де важливо правильно визначати позитивні
об’єкти. Вона показує відсоток об’єктів, коректно класифікованих як позитивні,
серед усіх об’єктів, яких модель позначила як позитивні. Інакше кажучи, precision
демонструє, наскільки «чистими» є передбачення позитивного класу моделі.
Формула для розрахунку точності (precision) така:
Precision=Кількість правильно визначених позитивних об’єктів/Загальна кіл
ькість об’єктів, визначених як позитивні.
Наприклад, якщо модель класифікувала 100 об’єктів і позначила 95 з них як
позитивні, з яких 80 об’єктів були правильно визначені, то точність (Precision)
розраховується як:
Precision=80/95=0.84.
Отже, 84,2% всіх передбачених позитивних об’єктів були класифіковані
правильно, що ілюструє «чистоту» передбачень моделі для позитивного класу.
Точність (Precision) у цьому прикладі становить 84%, і висока точність свідчить
про те, що модель робить мало помилок при визначенні позитивних об’єктів.
Recall (повнота) — це метрика, яка оцінює здатність моделі правильно
виявляти всі реальні позитивні об’єкти. Вона показує відсоток позитивних
об’єктів, які модель успішно визначила серед усіх фактичних позитивних
прикладів. Іншими словами, повнота демонструє, наскільки комплексно модель
охоплює позитивні класи.
Формула для розрахунку повноти виглядає так:
Recall=Кількість правильно визначених позитивних об’єктів/Загальна кількі
сть фактичних позитивних об’єктів
Припустимо, що з 95 фактичних позитивних об’єктів модель правильно
визначила 85, тоді повнота (Recall) розраховується так::
50
Recall=85/95=0.89.
F1-міра (F1-Score) - це гармонічний середній показник, який комбінує
точність (precision) і повноту (recall) для оцінки якості класифікації моделі в
машинному навчанні, зокрема в завданнях класифікації:
f1=(2×Precision×Recall) / (Precision+Recall)
Таким чином, описані показники будуть використані для оцінки
ефективності отриманої нейромережевої моделі.
2.5 Побудова моделі нейромережевих автоенкодерів та їх властивості
Одним із ефективних підходів до обробки складних даних є глибоке
навчання (Deep Learning). Цей підхід широко застосовується у задачах виявлення
аномалій, оскільки має низку суттєвих переваг. Насамперед, моделі глибокого
навчання здатні працювати з багатовимірними даними, що дозволяє об’єднувати
інформацію з різних джерел і уникати необхідності побудови окремих моделей
для кожної змінної. Навіть за мінімальних налаштувань такі моделі демонструють
високу ефективність і здатні автоматично виявляти приховані закономірності у
даних.
Ще однією перевагою є висока продуктивність. Глибокі нейронні мережі
вміють моделювати нелінійні та складні взаємозв’язки у даних, що робить їх
надзвичайно ефективними для аналізу складних процесів і поведінкових патернів.
Крім того, ці моделі добре масштабуються — за наявності достатнього обсягу
навчальних даних їх ефективність може лише зростати, що робить глибоке
навчання оптимальним підходом для обробки великих обсягів даних (Big Data).
Більшість моделей глибокого навчання для виявлення аномалій базуються
на архітектурі типу кодер–декодер, де кодер перетворює вхідні дані у компактне
внутрішнє подання, а декодер намагається відновити початкові дані на основі
цього подання. Завдяки такій структурі мережа здатна вивчати розподіл
51
нормальних даних і визначати ступінь відхилення для виявлення потенційних
аномалій.
Одним із найпоширеніших прикладів таких архітектур є автокодери
(Autoencoders) — нейронні мережі, що навчаються стискати вхідні дані у
нижчовимірне подання, а потім відновлювати їх назад. У процесі навчання модель
мінімізує помилку реконструкції (наприклад, середньоквадратичну похибку) між
вхідними та відновленими даними. Автокодери застосовуються у численних
практичних задачах — зменшенні розмірності, видаленні шумів із зображень,
стисненні даних, обробці часових рядів та аналізі мережевого трафіка для
виявлення відхилень у поведінці систем.
Побудова нейромережевої структури для аналізу даних та виявлення
аномалій ґрунтується на ідеї роботи автокодувальника і застосуванні кодера-
декодера: кодер, який навчається генерувати внутрішнє представлення вхідних
даних (стан θ при обробці функцією fθ набору даних xi ), і декодер, який
намагається відновити вихідний сигнал (стан ϕ при обробці функцією gϕ набору
даних xi ) на основі цього внутрішнього подання (рис.2.10). Математичну модель
перетворення можна представити у вигляді наступної трансформації станів
θ : X →Y ϕ :Y → X ,
де для налаштування коефіцієнтів нейромережі застосовується мінімізація
середньоквадратичної помилки (MSE - L) перетворення між входом і виходом:
n 2
L(θ ,ϕ) 1
= ∑(xi − fθ (g (xi
ϕ ))) .
n i=1
Автоенкодер складається з трьох основних компонентів (рис.2.10):
Encoder: приймає вхідний вектор і перетворює його у латентне
представлення (зменшений вектор ознак);
Latent space (bottleneck): стиснута репрезентація даних, яка містить
найбільш інформативні характеристики;
Decoder: відновлює вхідні дані з латентного простору, формуючи прогноз
або реконструкцію.
52
Рисунок 2.10 - Типова структура автоенкодера для виявлення аномалій в даних
Принцип роботи автоенкодера. Під час навчання автоенкодер мінімізує
помилку реконструкції — різницю між вхідним і відновленим сигналом, зазвичай
за допомогою MSE (Mean Squared Error). Для виявлення аномалій після навчання
застосовують правило: якщо помилка реконструкції для нового прикладу велика,
цей приклад потенційно є аномальним, оскільки мережа навчалася відтворювати
тільки нормальні патерни.
2.6 Практична реалізація автоенкодера для виявлення аномальних
даних
Для оцінки ефективності статистичних та базових методів, реалізованих у
бібліотеках машинного навчання Scikit-Learn та PyOD, були проведені
експериментальні дослідження на двовимірних даних. Це дозволяє не лише
отримати чисельні показники ефективності, а й візуалізувати результати обробки.
Набутий досвід аналізу таких даних може бути корисним і для багатовимірних
випадків.
У роботі було розглянуто три різних синтетичних структури даних, що
дозволяє оцінити здатність різних підходів і методів виявляти аномалії.
Використовувалася вибірка обсягом 10 000 спостережень, з яких 1% становили
аномальні дані. Для оцінки ефективності обробки даних вибірку було поділено на
53
тренувальну (TRAIN) та тестову (TEST) у співвідношенні 0,7 та 0,3 відповідно.
Основні двовимірні структури даних, які зручно спостерігати візуально,
використовувалися в експерименті. Вони є типовими для кластерного аналізу та
наведені на рис. 2.11, де сині крапки позначають нормальні дані, а червоні —
аномальні. Реалізація експериментів виконана у середовищі Jupyter Notebook
мовою Python.
Дані структури відрізняються за складністю і не всі методи, особливо
статистичні, демонструють високу ефективність у їх аналізі, що позначається на
точності виявлення аномалій на тестових наборах. Для кількісної оцінки
ефективності використовувалися класичні метрики: точність (accuracy), влучність
(precision), повнота́ (recall), їх комбінація у вигляді f1-метрики.
54
а)
б)
в)
Рисунок 2.11 - Модельні структури даних (тренувальні – traine і тестові – Test) з
представленням нормальних (сині крапки) та аномальних даних (червоні крапки)
для наступних типів: а) – «2 blobs»; б) – «Circles»; в) – «Moons»
55
Отримані результати показують, що ефективність методів значною мірою
залежить від структури даних і типу аномалій. При цьому візуалізація
двовимірних наборів даних дає змогу наочно порівняти поведінку різних
алгоритмів та оцінити, які підходи демонструють найкращі результати для
конкретних типів даних.
Модельні структури даних, які представлені на рис.2.11, аналізувалися
статистичними методами та спеціалізованими методами бібліотек машинного
навчання Scikit-Learn та PyOD для виявлення аномальних даних. Результати
досліджень свідчать, що для простих структур даних, таких як «2blobs»),
статистичні методи демонструють задовільний результат. Але для складних
структур даних, таких як, наприклад, типу «Circles», такі методи зовсім не
спрацьовують і виявлення аномальних даних не відбувається.
В роботі проведений аналіз ефективності виявлення аномалій для
різноманітних структур даних, який представлений в табл.2.2 – 2.4 для наступних
показників: f1 метрика, ROC-крива, точність, влучність та повнота. Результати
аналізу згруповані для трьох груп методів: І – статистичні методи (метод 3-сігма,
міжквартильного інтервалу, Z-score, Mahalanobis distance); ІІ – методи бібліотеки
Scikit-Learn (DBSCAN, IsolationForest, LocalOutlierFactor; OneClassSVM); ІІІ -
методи бібліотеки PyOD (CBLOF, XGBOD, AutoEncoder, KNN). Найбільш
об’єктивними характеристиками якості є f1 метрика та ROC крива. Візуальний
аналіз виявлення аномальних даних, на прикладі структури типу «Circles»,
наведений на рис.2.12.
Проведені експерименти свідчать, що найбільш ефективними методами
аналізу даних для різноманітних структур даних є: LocalOutlierFactor, CBLOF,
XGBOD, KNN. Такі методи, як LocalOutlierFactor та XGBOD (табл.2.3) показують
100% ефективність правильного детектування.
56
д)
а)
б) е)
в) ж)
г) и)
Рисунок 2.12 - Результат обробки структури даних типу «Moons» методами
Scikit-Learn і PyOD: а) - DBSCAN; б) – IsolationForest; в) - LocalOutlierFactor –; в)
– OneClassSVM; д) - CBLOF; е) – XGBOD; ж) - AutoEncoder from PyOD; и) – KNN
57
Таблиця 2.2 - Показники ефективності виявлення аномальних даних різними
методами структури даних типу «2 BLOBS»
№ Назва методу Кількісні показники якості виявлення аномалій в даних
f1 roc_auc accuracy precision recall
3 Sigma 0.990 0.982 0.999 0.999 0.982
Quantile 0.698 0.625 0.993 0.996 0.625
І Z-score 0.761 0.678 0.994 0.996 0.678
Mahalanobis 1.0 1.0 1.0 1.0 1.0
distance
DBSCAN 0.982 0.999 0.999 0.966 0.999
IsolationForest 0.991 0.999 0.999 0.984 0.999
ІІ LocalOutlierFactor 0.991 0.983 0.999 0.999 0.983
OneClassSVM 0.779 0.850 0.988 0.732 0.850
CBLOF 0.955 0.998 0.998 0.918 0.998
XGBOD 0.984 0.999 0.999 0.969 0.999
ІІІ AutoEncoder 0.991 0.983 0.999 0.999 0.983
KNN 0.915 0.945 0.996 0.890 0.945
Таблиця 2.3 - Показники ефективності виявлення аномальних даних різними
Методами структури даних типу «CIRCLES»
Назва методу Кількісні показники якості виявлення аномалій в даних
f1 roc_auc accuracy precision recall
3 Sigma 0.496 0.5 0.987 0.493 0.5
Quantile 0.496 0.5 0.987 0.493 0.5
I Z-score 0.496 0.5 0.987 0.493 0.5
Mahalanobis 0.496 0.5 0.987 0.493 0.5
distance
DBSCAN 0.570 0.547 0.988 0.645 0.547
IsolationForest 0.494 0.493 0.976 0.494 0.493
II LocalOutlierFactor 1.0 1.0 1.0 1.0 1.0
OneClassSVM 0.492 0.490 0.970 0.494 0.490
CBLOF 0.948 0.998 0.997 0.907 0.998
XGBOD 1.0 1.0 1.0 1.0 1.0
III AutoEncoder 0.494 0.494 0.979 0.494 0.494
KNN 0.923 0.998 0.9963 0.869 0.998
58
Таблиця 2.4 - Показники ефективності виявлення аномальних даних різними
методами структури даних типу «MOONS»
№ Назва методу Кількісні показники якості виявлення аномалій в даних
f1 roc_auc accuracy precision recall
3 Sigma 0.497 0.5 0.988 0.494 0.5
Quantile 0.497 0.5 0.988 0.494 0.5
І Z-score 0.497 0.5 0.988 0.494 0.5
Mahalanobis 0.735 0.817 0.984 0.687 0.817
distance
DBSCAN 0.804 0.720 0.993 0.996 0.720
IsolationForest 0.873 0.895 0.994 0.854 0.895
ІІ LocalOutlierFactor 0.976 0.955 0.999 0.999 0.955
OneClassSVM 0.698 0.744 0.983 0.667 0.744
CBLOF 0.985 0.999 0.999 0.972 0.999
XGBOD 0.992 0.999 0.999 0.985 0.999
ІІІ AutoEncoder 0.743 0.732 0.989 0.755 0.732
KNN 0.935 0.998 0.996 0.886 0.998
Оскільки методи глибокого навчання набувають свого широкого розвитку, а
AutoEncoder з бібліотеки PyOD не показав свою ефективність на багатьох
структурах даних, виникла необхідність покращити роботу нейромережевих
методів.
В роботі запропонований повнозв’язний автокодувальник зі структурою:
32 – 16 – 8 – 4 – 2 – 2 – 4 – 8 – 16 – 32
модель якого представлена на рис.2.13 та рис.2.14(а) і який характеризується
наступними гіперпараметрами:
- розмір коду (сode size): кількість вузлів у середньому шарі. Менший розмір
призводить до більшого стиснення. В роботі запропонований параметр, рівний
2;
- кількість шарів (number of layers): автокодувальник може бути настільки
глибоким, наскільки це потрібно, але збільшення кількості шарів
59
1 1
2 2
1 1
1
2 1 2
4 2 2 4 1
8
8
16 16
32 32
Рисунок 2.13 - Представлення моделі повнозв'язного (Dense Layer)
автокодувальника
б)
а)
в)
Рисунок 2.14 - Структура повнозв'язного автокодувальника (а) та представлення
процесу його навчання (б); ілюстрація ефективності роботи мережі у вигляді
представлення матриці помилок - «Confision Matrix» (в)
60
збільшує час навчання. В роботі запропоновано 4 шари, як у кодері, так і в
декодері, не враховуючи вхідні та вихідні дані, що буде сприяти швидкому
навчанню мережі;
- кількість вузлів на шар (number of nodes per layer) – кількість вузлів на шар
зменшується з кожним наступним шаром кодера і збільшується назад у
декодері;
- функція втрат (loss function) – використовується середньоквадратичну
помилка (mse) реконструкції даних або бінарна кросентропія (binary
crossentropy).
В якості внутрішніх функцій активації використовувалися функції «relu», а
вихідна функція активації – «linear». Параметр швидкості навчання «learning_rate»
обирався в межах 10-2…10-5. Параметр загальної кількості тренувальних об’єктів
«batch_size» – 30. В якості функції втрат обрано MSE (mean squared error), а
оптимізатора – «adam».
Запропонована нейромережева структура розглядалася як Supervised, коли
передбачалася наявність цільової функції при навчанні мережі. Задачею кодера
було «стиснення даних» з меншою розмірністю, а задача декодера -
реконструювання даних. Модель тренується шляхом мінімізації помилки
реконструкції. Це дозволяє позбутися тих об’єктів, які є рідкісними і не можуть
бути відновлені. Таким чином, така структура може успішно видаляти аномальні
дані серед інших.
Нейромережева структура детектування аномалій є простою, демонструє
швидке навчання в межах десяти епох (рис.2.14.б), що дає суттєву перевагу в
економії часу, наприклад, у порівнянні з базовим методом XGBOD до 10 разів з
приблизно однаковою ефективністю, демонструє мінімальні помилки
(Рисунок 2.14.в).
Проведені чисельні експерименти запропонованої нейромережевої структури
для виявлення аномалій при аналізі різних структур даних (табл.2.5), що
демонструє 100% точність по всім показникам.
61
Таблиця 2.5 Показники ефективності виявлення аномалій для різних структур
даних при застосуванні нової нейромережевої структури
Назва Кількісні показники якості виявлення аномалій в даних
структури f1 roc_auc accuracy precision recall
даних
2 BLOBS 1.0 1.0 1.0 1.0 1.0
CIRCLES 1.0 1.0 1.0 1.0 1.0
MOONS 1.0 1.0 1.0 1.0 1.0
Таблиця 2.6 - Показники ефективності виявлення шахрайства (Credit-card Fraud)
у фінансових операціях на основі даних платформи Kaggle
№ Назва методу Кількісні показники якості виявлення аномалій в
даних
f1 roc_auc accuracy precision recall
1 KNN 0.705 0.864 0.991 0.643 0.864
2 LOF 0.551 0.576 0.986 0.539 0.576
3 CBLOF 0.653 0.737 0.989 0.614 0.737
4 XGBOD 0.906 0.854 0.998 0.977 0.854
5 AutoEncoder 0.651 0.721 0.989 0.615 0.721
6 AdaBoostClassifier 0.903 0.870 0.998 0.941 0.870
7 KNeighborsClassifier 0.891 0.851 0.988 0.922 0.841
NEW
result Autoencoder Classifier 0.925 0.870 0.998 0.999 0.870
Проведені експерименти по аналізу багатовимірних даних на прикладі
виявлення шахрайства (Credit-card Fraud) у фінансових операціях.
В якості датасета були обрані дані розмірністю (284807, 31) зі змагань платформи
Kaggle, які представляють проекції даних за допомогою методу PCA в 31-
вимірний простір і використовується багатьма дослідниками для випробовування
своїх умінь.
62
Вибірка даних була розділена на тренувальну, тестову, а також валідаційну
для тренування базового методу AutoEncoder та нової нейромережевої структури
Autoencoder Classifier. Аналіз даних показав, що кількість аномалій (викидів, яким
відповідає цільова функція «y=1») складає до 1 %. Таким чином, датасет є дуже
розбалансований, що є характерним при виявленні аномалій і суттєво ускладнює
застосування різноманітних методів класифікації.
Після виконання функції нормування даних методом StandardScaler були
застосовані базові методи бібліотек машинного навчання Scikit-Learn та PyOD,
зокрема – KNN, LOF, CBLOF, XGBOD, AutoEncoder, AdaBoostClassifier,
KNeighborsClassifier, які показали меншу ефективність по показникам f1 та
roc_auc у порівнянні з новим методом глибокого навчання на основі розробленої
нейромережевої структури.
Аналіз даних засвідчив, що запропонований новий метод (Autoencoder
Classifier) нейромережевого виявлення аномалій демонструє свою високу
ефективність і при обробці багатовимірних даних у порівнянні з базовими
методами бібліотек Scikit-Learn та PyOD при своїй простій реалізації і швидкому
навчанні. Так, показник ефективності f1=0.925 (рядок NEW result), що перевищує
значення інших методів, зокрема XGBOD (f1=0.906), який до 10 разів
поступається швидкодією.
2.7 Висновки
У розділі було проведено формалізацію задачі виявлення аномалій у
багатовимірних потоках даних, що дозволило визначити критерії аномальності та
способи їх кількісної оцінки. Було показано, що багатовимірність та динамічність
потоків створюють складність для традиційних методів, що обумовлює
необхідність застосування сучасних алгоритмів нейромережевого навчання,
здатних виявляти як точкові, так і контекстно-залежні аномалії.
63
На основі аналізу особливостей потокових даних та вимог до системи була
розроблена архітектура обробки даних методами машинного навчання, що
включає послідовні етапи отримання, очищення, нормалізації та формування
ознак. Обґрунтовано використання модульної структури системи, що дозволяє
інтегрувати різні алгоритми виявлення аномалій та забезпечує масштабованість і
адаптивність при обробці нових даних.
Розглянуто архітектури нейронних мереж, зокрема Dense мережі та
автоенкодери, їх принципи побудови та особливості застосування для
багатовимірних даних. Було продемонстровано, що використання автоенкодерів
дозволяє ефективно стиснути інформацію у латентний простір та реконструювати
вхідні дані, що робить їх потужним інструментом для виявлення аномалій у
потоках даних.
У роботі наведено практичну реалізацію автоенкодера, що підтвердило його
високу ефективність на експериментальних даних, в тому числі при обробці
багатовимірних даних на прикладі банківських транзакцій. Було показано, що
модель здатна виявляти відхилення від нормальних патернів з високою точністю,
а використання помилки реконструкції як метрики, дозволяє кількісно оцінити
степінь аномальності. Наведений практичний приклад його реалізації демонструє
можливість інтеграції автоенкодера у системи моніторингу у реальному часі.
Оцінка параметрів якості нейромережевої моделі підтвердила її надійність
та стабільність. Використані метрики (Precision, Recall, F1-score) показали, що
модель досягає високої точності виявлення аномалій при низькому рівні хибних
спрацьовувань. Таким чином, проведене дослідження доводить, що застосування
нейромережевих автоенкодерів є ефективним підходом для аналізу
багатовимірних потоків даних та побудови систем раннього виявлення аномалій.
64
3 ПОБУДОВА МОДЕЛІ ГЛИБИННОГО НАВЧАННЯ ДЛЯ ВИЯВЛЕННЯ
АНОМАЛІЙ ПРИ АНАЛІЗІ БАГАТОВИМІРНИХ ДАНИХ
3.1 Попередній аналіз багатовимірних даних
Для демонстрації позитивних якостей нейромережевого підходу щодо
обробки багатовимірних даних розглянемо практичну задачу аналізу аномальних
транзакцій банківських операцій для виявлення шахрайських дій.
У сфері фінансових технологій обсяг транзакційних даних зростає з кожним
роком, і разом із цим ускладнюються схеми шахрайства, що робить їх виявлення
дедалі більш комплексним завданням. Традиційні методи Fraud Detection,
засновані на експертно визначених правилах або простих статистичних порогах,
часто не встигають адаптуватися до нових видів зловмисної діяльності.
Шахрайські транзакції стають більш витонченими, маскуються під нормальну
поведінку та можуть проявлятися лише як невеликі відхилення у багатовимірних
просторах ознак. Це обумовлює необхідність переходу від класичних rule-based
підходів до методів глибинного навчання, здатних виявляти тонкі, нелінійні та
багатовимірні патерни.
Нейромережеві моделі, зокрема рекурентні мережі, згорткові архітектури та
автоенкодери, демонструють високу ефективність у задачах класифікації та
виявлення аномалій завдяки здатності автоматично вчитися з великих обсягів
даних. У випадку Fraud Detection це особливо важливо, оскільки транзакції
містять складні залежності між ознаками — такими як тип операції, геолокація,
поведінкові параметри користувача, час проведення транзакції, кореляція між
активністю різних пристроїв тощо. Глибинні моделі здатні виявляти приховані
закономірності та визначати тонкі відхилення, які неможливо формалізувати
вручну.
Перспективність нейромережевих методів зумовлена також здатністю
працювати з даними, де аномалії надзвичайно рідкісні порівняно з нормальними
65
транзакціями. Нейромережеві моделі дозволяють ефективно моделювати
нормальну поведінку користувачів і виявляти нетипові операції на основі
помилки реконструкції або ймовірнісних характеристик. Такі моделі успішно
справляються з проблемою незбалансованих вибірок, де клас “шахрайство” може
становити менше 0,1% від усіх транзакцій.
Сучасні нейромережеві рішення вже інтегруються у фінансові системи для
моніторингу транзакцій у реальному часі, автоматичної оцінки ризиків та
формування поведінкових профілів клієнтів. Використання глибинного навчання
забезпечує не лише підвищення точності виявлення шахрайства, але й значне
зменшення кількості хибних спрацьовувань, що є критично важливим для бізнесу.
У перспективі розвиток гетерогенних моделей, які комбінують різні типи
нейронних мереж, дозволять побудувати ще точніші та більш інтерпретовані
системи Fraud Detection, здатні ефективно протидіяти складним і новим сценаріям
шахрайської поведінки.
Датасет Credit Card Fraud Detection із платформи Kaggle містить реальні
дані про транзакції власників кредитних карток у Європі, зібрані протягом двох
днів. Його основним призначенням є побудова та оцінка моделей машинного
навчання, спрямованих на виявлення підозрілих або шахрайських операцій.
Усього набір даних включає 284 807 транзакцій, містить 31 параметр,
представлений у форматі CSV (рис.3.1).
Рисунок 3.1. Зчитування датасета та аналіз його структури
З метою забезпечення конфіденційності дані були попередньо
анонімізовані, тому будь-яка ідентифікаційна чи персональна інформація клієнтів
у наборі відсутня. Більшість ознак сформовано за допомогою методу головних
66
компонент (PCA), що дозволяє зменшити розмірність простору ознак і приховати
первинні змінні (рис. 3.2). Структура датасета включає такі параметри:
Time — час у секундах, що минув від моменту виконання першої транзакції
у вибірці;
V1–V28 — 28 анонімізованих ознак, отриманих шляхом перетворення PCA,
які відображають статистичні та поведінкові характеристики транзакцій;
Amount — сума транзакції в євро;
Class — цільова змінна, де 0 позначає нормальну транзакцію, а 1 —
шахрайську.
…
Рисунок 3.2 - Аналіз датасета та його структура
Колонка «Час» демонструє, що що дані містять 284 807 записів протягом 2
днів (або 172 792 секунди) (рис.3.3).
Рисунок 3.3 - Опис датасету та визначення тривалості запису даних
67
Проведемо аналіз датасета – він є незбалансованим: клас «1» має лише 492
транзакції з загальної кількості 284,807, і такий клас виділено як шахрайський
(рис.3.4.).
Рисунок 3.4 - Демонстрація дисбалансу класів досліджуваного датасета
Частка позитивного класу становить приблизно 0,172%, що відповідає одній
шахрайській транзакції серед близько 580 нормальних. Такий розподіл класів
формує характерну проблему несбалансованості вибірки (class imbalance), яка
потребує застосування спеціалізованих технік балансування, таких як
undersampling, oversampling, SMOTE або підходів, орієнтованих на виявлення
аномалій.
Ознаки V1–V28 є результатом анонімізації на основі методу головних
компонент (PCA). Вони не мають прямої інтерпретації, проте зберігають
статистичну структуру вихідних даних. Це ускладнює пояснення поведінки
моделі, але водночас робить можливим коректне порівняння різних алгоритмів на
єдиному наборі вхідних характеристик.
68
Оскільки ознаки Time та Amount подані у своїх первинних масштабах, а
компоненти V1–V28 вже нормалізовані PCA-перетворенням, виникає потреба
додатково виконати нормалізацію чи стандартизацію Time та Amount для
забезпечення коректного навчання та збіжності моделі. Нерівномірність
масштабів може негативно впливати на алгоритми, чутливі до величини ознак.
Через застосування PCA безпосередня інтерпретація факторів, що
впливають на шахрайські транзакції, є неможливою. Тому основна увага
зосереджується на підвищенні якості класифікації, а не на пояснюваності кожного
окремого параметра. З огляду на це ключовою метою моделювання є побудова
системи, здатної:
• визначати аномальні транзакції (class = 1);
• мінімізувати помилки типу I (False Positive) та типу II (False Negative);
• забезпечувати високі значення Precision, Recall та F1-score навіть за умов
значного дисбалансу класів.
Проведений аналіз часової характеристики транзакцій за параметром
«Time» та її порівняння з ознакою «Class» показує, що шахрайські операції мають
значно більш рівномірний часовий розподіл у порівнянні з легітимними. На
відміну від звичайних транзакцій, які демонструють виражену залежність від
активності користувачів упродовж доби, шахрайські транзакції трапляються
практично в будь-який момент часу. Вони не підпорядковуються типовим
добовим ритмам і фіксуються як у пікові години, так і в періоди низької реальної
активності — зокрема, у нічний час за європейським часовим поясом (рис. 3.5).
69
Рисунок 3.5 - Залежність кількості дійсних (синя крива) та шахрайських (червона
крива) транзакційвід часу
Для більш детального дослідження часових закономірностей проаналізуємо
розподіл параметра Time для обох класів транзакцій, а також агрегуємо дані за
годинами, розглядаючи як кількість, так і суму транзакцій упродовж доби.
Виходячи з характеру значень Time та отриманих графічних спостережень, можна
припустити, що одиницею часу в датасеті є секунда.
Для зручності аналізу введено нову ознаку Hour, яка визначає номер години в
інтервалі від 0 до 48. Це обґрунтовано тим, що параметр Time відображає
кількість секунд, що минули від початку реєстрації даних, а загальний період
охоплює приблизно дві доби. Внаслідок такого перетворення кожній транзакції
надається часова позначка, що дозволяє виявити добові патерни та порівняти
поведінку легітимних і шахрайських операцій (рис. 3.6).
70
Рисунок 3.6 - Залежність суми транзакцій від часу (год) для нормальних та
шахрайських транзакцій
Лівий графік відображає зміну загальної суми звичайних транзакцій (Class
= 0) протягом доби, тоді як правий (червоним кольором) демонструє сумарні
значення шахрайських транзакцій (Class = 1) у ті самі часові інтервали. Для класу
0 спостерігається чітко виражена добова циклічність: підвищена активність у
денні години (приблизно з 09:00 до 18:00) та суттєве зниження обсягів у нічний
період (з 00:00 до 06:00). Це відповідає звичайній поведінці користувачів, коли
фінансова активність припадає на робочий час, а також періоди покупок та оплати
послуг.
На відміну від цього, графік для Class = 1 не демонструє стабільної добової
періодичності. Навпаки, спостерігаються поодинокі аномальні піки у нічні години
— наприклад, приблизно між 1–3 годиною ранку або у діапазоні 27–29 години
другого дня. Хоча загальна сума операцій значно менша через малу кількість
fraud-транзакцій, характер їхнього розподілу порушує типовий денний ритм. Така
поведінка є типовою для шахрайських операцій, які нерідко здійснюються в
позаробочий час, щоб зменшити ймовірність оперативного виявлення.
Узагальнений аналіз динаміки Total Amount за годинами показав, що:
• звичайні транзакції дотримуються природного добового циклу з піковою
активністю вдень;
71
• шахрайські транзакції мають хаотичний характер із поодинокими нічними
сплесками;
• така різниця відображає поведінкову відмінність між реальними
користувачами та зловмисниками й може бути корисною для створення нових
ознак, наприклад “is_night_transaction”.
Далі проаналізуємо середню суму транзакцій (Mean Amount) упродовж доби
окремо для нормальних (Class = 0) та шахрайських (Class = 1) операцій. На
відміну від попереднього етапу, де розглядався загальний обсяг активності, тут
оцінюється типовий розмір транзакції в різні години доби, що дає змогу виявити
більш тонкі поведінкові аномалії користувачів і зловмисників (рис. 3.7).
Рисунок 3.7 - Залежність середньої суми транзакцій від часу (год) для
досліджуваних операцій
Наведемо аналітичні спостереження середньої суми транзакцій:
72
Отримані результати свідчать про те, що поведінка звичайних користувачів
характеризується стабільним добовим ритмом: середня сума їхніх транзакцій
змінюється відповідно до типових періодів активності протягом дня. Натомість
шахрайські операції не мають жодної чіткої часової структури — вони виникають
у випадкові години, часто в нічний час або в періоди мінімальної реальної
активності користувачів. Така нерегулярність підтверджує, що часова складова
може бути важливим інформативним предиктором шахрайської поведінки,
особливо у вигляді похідних ознак.
З огляду на це доцільно застосовувати додаткові часові характеристики,
наприклад створювати бінарні ознаки на кшталт “is_night_transaction” або
аналізувати відхилення від типового денного ритму. Для поглибленого
дослідження часових аспектів наступним кроком є аналіз максимальних сум
транзакцій (Max Amount) у кожну годину доби окремо для нормальних (Class = 0)
та шахрайських (Class = 1) операцій. Такий підхід дає можливість виявити
екстремальні значення — пікові суми, що можуть свідчити про спроби
масштабного шахрайства або нетипові фінансові дії (рис. 3.8).
Рисунок 3.8 - Залежності максимальних сум транзакцій для нормальних та
шахрайських операцій від часу
Наведемо аналітичне порівняння максимальних сум транзакцій:
73
Аналіз динаміки максимальних сум транзакцій (Max Amount) за годинами
доби виявив суттєві відмінності у поведінці легітимних користувачів і
шахрайських суб’єктів. Для нормальних операцій характерна впорядкована
добова структура: найбільші суми припадають переважно на робочі години та
демонструють відносну стабільність. Це відображає природну фінансову
активність, зумовлену бізнес-процесами, купівельною спроможністю та типовими
поведінковими патернами користувачів.
Шахрайські транзакції, навпаки, демонструють нерегулярні й часто різкі
сплески великих сум у нічні години. Такі піки можуть свідчити про навмисні
спроби виведення значних коштів у періоди, коли моніторинг або активність
користувачів мінімальні. Подібні точки можуть бути класифіковані як потенційні
аномалії з підвищеним ризиковим індексом, і саме вони мають бути враховані під
час формування ознак для моделей машинного навчання, зокрема в межах feature
engineering.
Отримані графіки “Maximum Amount for Normal and Fraud Transactions”
наочно демонструють поведінкову асиметрію між звичайними користувачами та
шахрайськими актами. Якщо для першої групи характерні логічні та стабільні
коливання максимальних сум у типовий робочий час, то для другої — хаотичні і
непередбачувані пікові значення, що виникають у нетипові періоди.
Для подальшого вивчення закономірностей розподілу грошових операцій
здійснимо візуальну оцінку параметра Amount для обох класів — звичайних (Class
= 0) та шахрайських (Class = 1). Для цього використаємо boxplot-графіки, які
дозволяють дослідити основні статистичні характеристики набору даних, виявити
74
викиди та порівняти поведінку сум транзакцій з урахуванням і без урахування
аномальних значень (рис.3.9).
Рисунок 3.9 - Розподіл сум транзакцій для звичайних (Class=0) і шахрайських
(Class=1) класів
Лівий графік (showfliers=True) — демонструє розподіл сум транзакцій із
відображенням аномальних значень (викидів). Правий графік
(showfliers=False) — показує той самий розподіл, але без викидів, що дозволяє
краще оцінити основну масу спостережень.
Кожен boxplot містить:
• Медіану (середина коробки) — типовий рівень суми;
• Квартилі (Q1–Q3) — 50% центральних значень;
• “Вуса” (whiskers) — діапазон значень без викидів;
• Точки поза вусами — аномальні транзакції.
Спостереження з графіка з викидами (showfliers=True):
• Class 0 (фіолетовий) — більшість легальних транзакцій мають невеликі
суми, але помітна велика кількість викидів до 25 000 €. Це можуть бути
великі покупки, корпоративні перекази або платежі з високою вартістю, що
статистично рідкісні, але нормальні.
• Class 1 (зелений) — шахрайські операції також містять викиди, але значно
менші (до 2000 €). Основна маса транзакцій зосереджена близько нуля,
75
переважно до 100 €, що вказує на тенденцію злочинців здійснювати дрібні
операції, щоб уникнути підозр.
Таким чином, численні великі викиди у класі 0 відображають природну
варіативність легальних транзакцій, тоді як шахрайські операції характеризуються
низькою амплітудою та малою варіативністю.
Графік праворуч (showfliers=False). Після видалення аномальних значень розподіл
стає більш наочним:
• Class 0 (фіолетовий): медіана близько 20–30 €, більшість транзакцій у
межах 0–100 €, окремі випадки — до ~180 €. Це типовий профіль побутових
платежів.
• Class 1 (зелений): медіана трохи нижча, діапазон сум ширший — до 250 €.
Незважаючи на невеликі середні значення, іноді зустрічаються більші
транзакції, що створює відчуття більшого розкиду після видалення викидів.
Отже, без викидів чіткіше видно, що розподіли класів частково перекриваються,
але шахрайські транзакції відрізняються:
• нижчою медіаною,
• меншою концентрацією навколо середнього,
• та більшим розкидом для поодиноких великих операцій.
Отримані boxplot-графіки демонструють, що розподіл сум транзакцій
істотно відрізняється між легальними та шахрайськими операціями. У випадку
легальних транзакцій спостерігається широкий спектр сум — від дрібних покупок
до великих корпоративних платежів, що призводить до великої кількості
статистичних викидів.
Статистичний та візуальний аналіз підтвердив наявність суттєвих
поведінкових відмінностей між двома типами транзакцій. Звичайні операції
характеризуються стабільною добовою активністю, значною варіативністю сум та
наявністю численних викидів, що відображає природний спектр фінансової
поведінки користувачів. Шахрайські транзакції, навпаки, мають менші середні
суми, компактний розподіл та аномальні піки у нічні години, що свідчить про їх
навмисно прихований або автоматизований характер.
76
3.2 Побудова нейромережевої моделі обробки даних
Підготовка даних є ключовою складовою побудови якісної моделі
машинного навчання. У проведеному дослідженні виконувались такі етапи.
1. Завантаження відповідних бібліотек та розділення даних на навчальну та
тестову вибірки:
• train_df — навчальна вибірка;
• test_df — тестова вибірка.
2. Виділення цільової змінної
target — колонка, яка містить класи (0 або 1). Це необхідно для правильного
формування y_train та y_test. В результаті сформовані масиви даних, в яких
містяться тільки ключові ознаки для тренування моделі (X_train) та мітки
(y_train):
.
3. Масштабування та балансування класів
77
Оскільки дані були значно дисбалансовані, застосовано автоматичний
розрахунок ваг класів:
Алгоритм присвоює:
• рідкісному класу — більшу вагу;
• частому класу — меншу вагу.
Це покращує Recall, F1-score та ROC-AUC.
4. Архітектура моделі
Структура моделі — це глибока штучна нейронна мережа (Deep Neural
Network), орієнтована на багатокласову класифікацію. Архітектура передбачає
78
поступове скорочення кількості нейронів у шарах (512 → 256 → 128 → 64 →
32 → 16), що дозволяє моделі:
• спочатку виділяти складні, високорозмірні патерни у даних;
• потім — поступово переходити до абстрактніших та компактних ознак;
• наприкінці — сформувати низьковимірне представлення, достатнє для
класифікації.
BatchNormalization - виконує нормалізацію виходів шару перед активацією
наступного. Це стабілізує та прискорює навчання, зменшує внутрішній зсув
розподілу (internal covariate shift), дозволяє використовувати більші learning rate,
має ефект регуляризації, тобто зменшує перенавчання.
Dropout(0.3) - Dropout випадково "відключає" 30% нейронів під час
навчання. При цьому мережа не може "запам’ятати" тренувальні дані, запобігає
перенавчанню, змушує нейрони вчитися корисних, а не випадкових ознак, модель
стає більш узагальнюючою.
Нейромережа як звужуюча піраміда (bottleneck architecture):
верхні шари (512, 256) — вловлюють складні нефільтровані структури;
середні шари (128, 64) — виділяють абстракції та зменшують шум;
нижні шари (32, 16) — стискають інформацію до компактного
представлення.
Комбінація ReLU + BatchNorm + Dropout: забезпечує швидке навчання,
стабільність градієнтів, ефективну боротьбу з перенавчанням, плавне
узагальнення ознак.
Вихідний шар (softmax) - кількість нейронів = кількість класів, softmax
перетворює вихід на ймовірності (сума = 1).
Компіляція моделі - функція втрат — sparse_categorical_crossentropy,
підходить для багатокласової класифікації, працює з мітками у вигляді цілих
чисел (0, 1, 2…), а не one-hot, що економить пам’ять і час.
Оптимізатор ADAM - Adam = RMSProp + Momentum.
Застосування механізму ранньої зупинки навчання:
79
EarlyStopping — це механізм ранньої зупинки навчання, який автоматично
припиняє тренування нейронної мережі, коли подальші епохи не дають
покращення якості моделі.
Це один із найважливіших інструментів боротьби з overfitting:
monitor='val_loss' - цей параметр визначає, за якою метрикою потрібно
слідкувати під час навчання:
val_loss — помилка моделі на валідаційній вибірці;
patience=5 - це кількість епох, протягом яких алгоритм чекатиме
покращення;
restore_best_weights=True - це означає, що після зупинки модель отримає
ваги з тієї епохи, де val_loss була найнижчою, а не з останньої епохи навчання.
5. Навчання моделі.
X_train_scaled, — навчальні дані, нормалізовані вхідні ознаки (після
масштабування), y_train — цільові мітки класів. Масштабування ознак перед
тренуванням допомагає прискорити збіжність та покращує стабільність
оптимізатора;
validation_split=0.2 - визначає, що 20% навчальних даних будуть відкладені
й використовуватимуться як валідаційна вибірка. Призначення:
• оцінка якості моделі на даних, які вона не бачить у процесі тренування;
• виявлення переобучення;
• контроль роботи EarlyStopping.
80
epochs=50 - максимальна кількість епох тренування. Однак фактична
кількість епох може бути меншою, оскільки використовується EarlyStopping, який
зупиняє навчання раніше, якщо валідаційна помилка перестає покращуватися.
batch_size=64 - вказує розмір партії — кількість прикладів, що
використовуються для одного оновлення ваг. Переваги batch=64:
• баланс між швидкістю та стабільністю градієнтів;
• зниження шуму при обчисленні градієнтів;
• оптимальне використання GPU/CPU пам’яті.
class_weight=class_weight_dict. Передає словник ваг класів, обчислений як:
class_weights = compute_class_weight('balanced', classes=np.unique(y_train),
y=y_train).
Цей механізм компенсує дисбаланс класів, надає більшу вагу рідкісним
класам під час навчання, допомагає моделі не ігнорувати малочисельні класи,
покращує F1-score та ROC-AUC, особливо при суттєвій нерівномірності кількості
зразків.
callbacks=[early_stop] - використання механізму EarlyStopping для
моніторинг val_loss, зупинки тренування, якщо немає покращення протягом
patience=5 епох, повернення найкращих ваг (restore_best_weights=True), запобігає
перенавчанню, економить часу тренування.
verbose=2 - формат виводу інформації під час навчання. verbose=2 показує
одну стрічку на епоху (компактний варіант), містить значення loss, val_loss,
accuracy тощо.
В результаті запуску моделі були отримані наступні результати, які
відображені на рис.3.10.
81
Рисунок 3.10 - Відображення зміни функції втрат на тренувальній та
валідаційній вибірках у процесі навчання нейронної мережі
На рис. 3.10 наведений графік навчання за метрикою loss відображає зміну
функції втрат на тренувальній та валідаційній вибірках у процесі навчання
нейронної мережі. Цей графік є ключовим для аналізу якості та стабільності
навчання моделі.
Графік validation loss є більш показовим, оскільки відображає узагальнюючу
здатність моделі. На початкових епохах валідаційний loss також зменшується —
це означає, що модель не лише запам’ятовує тренувальні приклади, але й
покращує якість прогнозування на даних, яких не бачила. Після певної кількості
епох validation loss може:
• вийти на плато,
• перестати зменшуватися,
• або навіть почати зростати.
Зростання validation loss свідчить про перенавчання (overfitting): модель
надто добре "вивчає" тренувальні дані та перестає правильно узагальнювати
структуру даних.
У процесі оцінювання нейронної мережі були отримані такі показники
якості:
82
F1-score є гармонійним середнім між точністю (precision) та повнотою
(recall), тому є ключовою метрикою при роботі з незбалансованими даними та
задачами класифікації, де важливо не лише передбачити клас, але й саме
правильно його ідентифікувати.
ROC-AUC оцінює якість ранжування класів моделлю та показує, наскільки
добре мережа відокремлює позитивні класи від негативних (рис.3.11).
Рисунок 3.11 - Характеристика ROC-AUC для класифікації даних
Це дуже високі показники, які демонструють:
• високу дискримінаційну здатність моделі;
• стійке відокремлення класів;
• мінімальні втрати якості на тестових даних.
При цьому зниження з 0.989 до 0.956 є абсолютно нормальним і свідчить
про те, що:
• модель не перенавчилася;
• узагальнююча здатність залишається на високому рівні;
83
• результат на тесті більше ніж достатній для складної задачі класифікації.
Обидві метрики демонструють узгоджені позитивні результати:
• F1 ≈ 0.80 — висока точність при класифікації класів.
• ROC-AUC ≈ 0.95 — дуже добра здатність моделі відокремлювати класи
навіть за умов дисбалансу.
Таке поєднання свідчить, що модель не лише «вміє класифікувати», але й
структурно правильно розміщує приклади в просторі ознак.
3.3 Висновки
У цьому розділі було здійснено повний цикл підготовки даних та побудови
моделі багатошарової нейронної мережі для задачі класифікації. Проведено
масштабування числових ознак, усунення дисбалансу класів шляхом
використання ваг класів та формування навчальної й валідаційної вибірок.
Застосування методів попередньої обробки забезпечило коректне функціонування
моделі та стабільні умови для навчання. Особлива увага приділялася нормалізації
ознак, адже вона суттєво впливає на збіжність оптимізатора та точність кінцевого
результату.
Побудована модель включала декілька повнозв’язних шарів із
застосуванням Dropout та Batch Normalization, що дозволило значно підвищити
стабільність навчання та зменшити ризик перенавчання. Архітектура була
підібрана так, щоб збалансувати глибину та обчислювальну складність моделі,
забезпечуючи достатню навчальну здатність без надмірної складності. Механізм
ранньої зупинки (EarlyStopping) відіграв ключову роль у визначенні оптимальної
кількості епох, зберігаючи найкращі ваги моделі та запобігаючи деградації
точності.
Під час експериментів були отримані високі значення F1-score та ROC-AUC
як на тренувальній, так і на тестовій вибірках. Зокрема, F1-score становив
приблизно 0.80 на обох підвибірках, що свідчить про баланс між точністю та
84
повнотою навіть у випадку наявності дисбалансу між класами. Значення ROC-
AUC на рівні 0.95–0.98 підтверджує високу дискримінаційну здатність моделі,
тобто її спроможність коректно розділяти об’єкти різних класів. Узгодженість цих
метрик свідчить про те, що модель демонструє стійку поведінку та добре
узагальнює дані.
Аналіз графіків навчання, зокрема тренувальної та валідаційної кривих loss,
показав відсутність суттєвого перенавчання та підтвердив ефективність
застосованої регуляризації. Завдяки використанню збалансованих ваг класів,
оптимально підібраного розміру batch size та механізмів контролю якості модель
продемонструвала високу стабільність та точність класифікації. Отримані
результати доводять, що розроблена нейронна мережа є надійним інструментом
для вирішення поставленої задачі та може бути рекомендована для подальшого
використання або інтеграції у практичні системи аналізу даних.
85
ВИСНОВКИ
У роботі проведено детальний аналіз сучасних методів та моделей
виявлення аномалій у потоках даних. Розглянуто сутність поняття «аномалія», її
типи (точкові, контекстні, колективні) та класифікацію підходів до виявлення
аномалій. Встановлено, що ефективне виявлення аномалій у багатовимірних
даних потребує застосування як статистичних, так і машинно-навчальних методів,
з урахуванням особливостей даних, таких як розподіл, дисбаланс класів та
залежності між ознаками.
Проведений аналіз практичних задач підтвердив, що підхід на основі
багатовимірної обробки потоків даних дозволяє отримувати більш точні та
узагальнюючіі результати. Було проведено систематизацію методів та
інструментальних засобів виявлення аномалій. Розглянуто класифікацію
алгоритмів, включаючи традиційні статистичні підходи, кластеризаційні методи,
алгоритми на основі сусідства та сучасні методи глибокого навчання.
Проаналізовано практичне застосування інструментів для роботи з
багатовимірними потоками даних, зокрема бібліотек та фреймворків для Python,
які дозволяють ефективно реалізовувати алгоритми виявлення аномалій у великих
потоках даних та забезпечують інтеграцію з системами моніторингу.
У другому розділі проведено формалізацію задачі виявлення аномалій у
багатовимірних потоках даних та обґрунтовано архітектуру системи на основі
методів машинного навчання. Було визначено параметри якості нейромережевих
моделей, які забезпечують збалансовану точність та здатність до узагальнення.
Особливу увагу приділено побудові моделей автоенкодерів, які дозволяють
відтворювати нормальні патерни даних і виявляти аномальні спостереження на
основі похибок відтворення, що підвищує ефективність виявлення нетипових
явищ у багатовимірних даних.
Третій розділ роботи присвячено побудові та аналізу моделей глибокого
навчання для виявлення аномалій на прикладі задачі Fraud detection. Розроблена
нейронна мережа демонструє високу здатність до класифікації аномальних
86
транзакцій із використанням багатовимірних ознак. Результати оцінки моделі за
метриками F1-score та ROC-AUC показали стабільну та високу ефективність як на
тренувальній, так і на тестовій вибірках, підтверджуючи адекватність обраної
архітектури та параметрів моделі для реальних задач виявлення шахрайства.
Таким чином, проведене дослідження доводить, що комплексний підхід до
виявлення аномалій, який поєднує аналіз типів аномалій, вибір оптимальних
методів та побудову нейронних моделей з регуляризацією та контролем
перенавчання, є ефективним інструментом для аналізу багатовимірних потоків
даних. Розроблені моделі можуть бути застосовані для автоматизованого
моніторингу, виявлення шахрайських дій та аномалій у фінансових,
телекомунікаційних та інших інформаційних системах, забезпечуючи високий
рівень точності та надійності прогнозів.
87
СПИСОК ВИКОРИСТАНОЇ ЛІТЕРАТУРИ
1. Основи машинного навчання : навч. посiб. / В. О. Харченко. – Суми :
Сумський державний унiверситет, 2023. – 264 с.
2. Алгоритми машинного навчання. Глибокі нейромережі в задачах механіки
суцільних середовищ: Навчальний посібник. – Київ: КНУ ім. Тараса
Шевченка, 2024. – 100 с.
3. Толюпа С.В., Плющ О.Г., Пархоменко І.І. Побудова систем виявлення атак
в інформаційних мережах на нейромережевих структурах / Толюпа С.В.,
Плющ О.Г., Пархоменко І.І.// К.:К1БЕРБЕЗПЕКА: освіта, наука. Техніка №
2 (10), 2020. С.169-181.
4. Лук’яненко Т.Ю., Поночовний П.М., Легомінова С.В. Методика виявлення
мережевих вторгнень і ознак комп'ютерних атак на основі емпіричного
підходу // Сучасний захист інформації No 2 (50) 2022, с.15-22.
5. Deisenroth M. P. Mathematics for machine learning / M. P. Deisenroth, A. A.
Faisal, C. S. Ong. – New York : Cambridge University Press, 2020. – 412 p.
6. Aldweesh, A.; Derhab, A.; Emam, A.Z. Deep learning approaches for anomaly-
based intrusion detection systems: A survey, taxonomy, and open issues. Knowl.-
Based Syst. 2020, 189, 105124.
7. Olouhal, O.U.; Yange, T.S.; Okerekel, G.E.; Bakpol, F.S. Cutting Edge Trends in
Deception Based Intrusion Detection Systems-A Survey. J. Inf. Secur. 2021, 12,
250–269.
8. Charu C. Aggarwal. Outlier Analysis. Springer, 2013 Edition.
9. Hawkins S, He H., Williams G, Baxter R. Outlier Detection using Replicator
Neural Networks. International Conference on Data Warehousing and Knowledge
Discovery, pp. 170–180, Springer, 2002.
10. A Survey of Credit Card Fraud Detection Techniques: Data and Technique
Oriented Perspective - Samaneh Sorournejad, Zojah, Atani et.al - November 2016