Please use this identifier to cite or link to this item:
https://er.chdtu.edu.ua/handle/ChSTU/6731| Title: | Виявлення підозрілої активності у мережах методами інтелектуального аналізу даних |
| Authors: | Палагіна, Олена Анатоліївна ДОВГАНЬ, Андрій Сергійович |
| Keywords: | ВИЯВЛЕННЯ МЕРЕЖЕВИХ ВТОРГНЕНЬ, МАШИННЕ НАВЧАННЯ, АНОМАЛЬНІ ДАННІ, СИСТЕМА ВИЯВЛЕННЯ ВТОРГНЕНЬ IDS.;NETWORK INTRUSION DETECTION, MACHINE LEARNING, ANOMALOUS DATA, INTRUSION DETECTION SYSTEM (IDS) |
| Issue Date: | 18-Dec-2025 |
| Abstract: | Кваліфікаційна робота магістра присвячена дослідженню та розробленню моделей виявлення підозрілої й аномальної активності в мережевому трафіку на основі статистичних методів і алгоритмів машинного навчання. Об’єктом дослідження є процеси аналізу мережевого трафіку в інформаційних системах, а предметом — методи та моделі ML/AI для виявлення потенційно небезпечних подій. Обґрунтовано актуальність використання інтелектуального аналізу даних для підвищення точності та оперативності виявлення мережевих загроз порівняно з традиційними підходами.
У роботі проаналізовано сучасні алгоритми класифікації (KNN, Naive Bayes, Decision Tree, Random Forest, XGBoost, CatBoost, Voting), методи підготовки даних та оцінювання якості моделей. Показано, що найвищу ефективність забезпечує ансамблевий підхід на основі VotingClassifier з використанням soft-voting та зважуванням базових моделей (XGBoost, CatBoost, Random Forest), що дозволяє суттєво підвищити точність виявлення підозрілої мережевої активності. The master’s thesis focuses on the development and analysis of models for detecting suspicious and anomalous network traffic using statistical methods and machine learning algorithms. The object of the research is network traffic analysis in information systems, while the subject comprises ML/AI models and methods for identifying potentially malicious activity. The study justifies the relevance of intelligent data analysis techniques for improving the accuracy and speed of threat detection compared to traditional intrusion detection approaches. The work investigates modern classification algorithms (KNN, Naive Bayes, Decision Tree, Random Forest, XGBoost, CatBoost, Voting), data preprocessing techniques, and evaluation metrics. It is shown that the best performance is achieved by an ensemble VotingClassifier combining XGBoost, CatBoost, and Random Forest with soft voting and weighted contributions, which significantly improves the accuracy of suspicious activity detection. |
| URI: | https://er.chdtu.edu.ua/handle/ChSTU/6731 |
| Appears in Collections: | 112 Статистика (Аналіз даних (DATA SCIENCE) та комп'ютерна статистика) |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| ДОВГАНЬ А.С. Кваліфікаційна робота магістра.pdf Restricted Access | 3.28 MB | Adobe PDF | View/Open Request a copy |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.
Extracted text
РЕФЕРАТ
Пояснювальна записка: 81 сторінки, 38 рисунків, 11 літературних джерел.
Об’єкт дослідження - процеси аналізу мережевого трафіку та виявлення
підозрілої активності в інформаційних системах.
Предмет дослідження - статистичні методи, моделі та алгоритми
машинного навчання, що застосовуються для виявлення аномальної та потенційно
небезпечної мережевої активності.
Метою магістерської роботи є розроблення та дослідження статистично
обґрунтованої моделі виявлення підозрілої активності у мережевому трафіку з
використанням методів інтелектуального аналізу даних та машинного навчання.
Досліджено методи виявлення підозрілої активності та аномалій у
комп’ютерних мережах із застосуванням сучасних методів машинного навчання.
Проаналізовано поняття підозрілої активності, класифікацію аномалій, основні
типи атак та їх характерні ознаки, а також проведено порівняльний аналіз
традиційних методів виявлення мережевих загроз із підходами на основі ML/AI.
Такий аналіз дозволив обґрунтувати необхідність використання алгоритмів
машинного навчання для підвищення точності та швидкості виявлення загроз.
Описано методологічні основи побудови моделей виявлення мережевих
вторгнень, включно з підготовкою та обробкою даних для IDS, вибором
алгоритмів машинного навчання (KNN, Naive Bayes, Decision Tree, Random Forest,
XGBoost, CatBoost, Voting), оптимізацією гіперпараметрів та підбором метрик
оцінки ефективності моделей.
Показано, що найкращий результат досягається для методу VotingClassifier,
який поєднав сильні сторони декількох моделей — XGBoost, CatBoost та
RandomForest. Завдяки застосуванню soft-voting та зважуванню впливу
класифікаторів вдалося значно підвищити точність остаточного прогнозу.
ВИЯВЛЕННЯ МЕРЕЖЕВИХ ВТОРГНЕНЬ, МАШИННЕ НАВЧАННЯ,
АНОМАЛЬНІ ДАННІ, СИСТЕМА ВИЯВЛЕННЯ ВТОРГНЕНЬ IDS.
ABSTRACT
Explanatory note: 81 pages, 38 figures, 11 literary sources.
Object of the research – the processes of network traffic analysis and detection
of suspicious activity in information systems.
Subject of the research – statistical methods, models, and machine learning
algorithms applied for detecting anomalous and potentially dangerous network activity.
The purpose of the master's qualification work is to develop and investigate a
statistically substantiated model for detecting suspicious activity in network traffic
using data mining and machine learning methods.
The methods for detecting suspicious activity and anomalies in computer
networks using modern machine learning methods have been studied. The concept of
suspicious activity, classification of anomalies, main types of attacks and their
characteristic features have been analyzed, and a comparative analysis of traditional
network threat detection methods with ML/AI-based approaches has been conducted.
This analysis substantiated the necessity of using machine learning algorithms to
improve the accuracy and speed of threat detection.
The methodological foundations for building network intrusion detection models
are described, including data preparation and processing for IDS, selection of machine
learning algorithms (KNN, Naive Bayes, Decision Tree, Random Forest, XGBoost,
CatBoost, Voting), hyperparameter optimization, and the selection of model
performance evaluation metrics.
It is shown that the best result is achieved by the VotingClassifier method, which
combined the strengths of several models – XGBoost, CatBoost, and RandomForest. By
applying soft-voting and weighting the influence of classifiers, it was possible to
significantly improve the accuracy of the final prediction.
NETWORK INTRUSION DETECTION, MACHINE LEARNING, ANOMALOUS
DATA, INTRUSION DETECTION SYSTEM (IDS).
4
ЗМІСТ
ВСТУП 5
1 АНАЛІЗ ПІДОЗРІЛОЇ АКТИВНОСТІ В КОМП’ЮТЕРНИХ
МЕРЕЖАХ ТА МЕТОДІВ ЇЇ ВИЯВЛЕННЯ 7
1.1 Поняття підозрілої активності, аномалій та кіберзагроз у 7
комп’ютерних мережах
1.2 Класифікація аномалій у контексті аналізу мережевого трафіку 9
1.3 Основні типи атак у мережах та їх ознаки 12
1.4 Аналіз методів виявлення аномалій в мережі 18
1.5 Порівняльний аналіз традиційних методів виявлення мережевих 27
загроз з ML/AI методами
1.6 Висновки 29
2 МЕТОДОЛОГІЧНІ ОСНОВИ ПОБУДОВИ МОДЕЛЕЙ
31
ВИЯВЛЕННЯ МЕРЕЖЕВИХ ВТОРГНЕНЬ
2.1 Вибір стратегії дослідження та обґрунтування методів 31
2.2 Методи підготовки та опрацювання даних для IDS 35
2.3 Вибір та налаштування алгоритмів машинного навчання 37
2.4 Оптимізація гіперпараметрів та вибір метрик оцінювання 43
2.5 Показники якості моделі машинного навчання 46
2.6 Висновки 49
3 РОЗРОБЛЕННЯ ТА ДОСЛІДЖЕННЯ МОДЕЛЕЙ ВИЯВЛЕННЯ
51
ПІДОЗРІЛОЇ АКТИВНОСТІ В МЕРЕЖЕВОМУ ТРАФІКУ
3.1 Підготовка даних для побудови моделі машинного навчання 51
3.2 Проведення аналізу даних та інженерії ознак 61
3.3 Аналіз моделей машинного навчання виявлення мережевих 65
вторгнень
3.4 Висновки 76
ВИСНОВКИ 78
СПИСОК ВИКОРИСТАНОЇ ЛІТЕРАТУРИ 80
5
ВСТУП
Сучасні інформаційні системи генерують величезні обсяги даних, що
потребують глибокого статистичного аналізу для отримання значущих висновків.
Статистична обробка даних стала ключовим елементом у багатьох прикладних
областях — від медицини та економіки до інженерії, соціальних наук і
кібербезпеки. Розвиток напрямів Data Science та комп’ютерної статистики
забезпечив нові можливості для дослідження складних багатовимірних даних,
виявлення прихованих закономірностей та моделювання процесів, які не
піддаються класичному аналізу.
Однією з областей, де застосування статистичних методів є критично
важливим, виступає аналіз мережевого трафіку. Мережеві дані характеризуються
високою швидкістю надходження, значною варіативністю та складними
залежностями між параметрами. Це робить їх обробку складним статистичним
завданням, яке потребує застосування методів багатовимірного аналізу,
статистичного виявлення відхилень, апроксимації розподілів, оцінювання
залежностей та побудови моделей поведінки. Саме статистика дозволяє
формалізувати поняття «нормальної» та «аномальної» поведінки мережі, що
створює підґрунтя для подальшого застосування машинного навчання.
У сфері аналізу підозрілої активності у мережах особливої важливості
набуває поєднання статистичних підходів з методами інтелектуального аналізу
даних. Традиційні сигнатурні методи виявлення атак не здатні ефективно
працювати в умовах появи нових, невідомих або адаптивних загроз. Натомість
машинне навчання, зокрема кластеризація, класифікація, методи виявлення
аномалій та глибинні нейронні мережі, дозволяє автоматично знаходити
приховані патерни та складні статистичні залежності у трафіку, що є недоступним
для класичних методів аналізу. Це робить ML ефективним інструментом у
визначенні підозрілої активності та запобіганні кіберінцидентам.
З огляду на те, що кіберзагрози стають дедалі складнішими й часто
маскуються під легітимний трафік, створення статистично обґрунтованих та
6
адаптивних моделей аналізу даних є вкрай актуальним. Комбінація методів
комп’ютерної статистики, машинного навчання та аналізу даних забезпечує
можливість побудови точних детекторів аномальної поведінки, що відповідає
потребам сучасних інформаційних систем та компетентностям освітньої програми
«Аналіз даних (Data Science) та комп’ютерна статистика». Таким чином,
дослідження підозрілої мережевої активності з використанням статистичних
моделей та ML-технологій має значний теоретичний і прикладний потенціал.
Метою кваліфікаційної роботи магістра є розроблення та дослідження
статистично обґрунтованої моделі виявлення підозрілої активності у мережевому
трафіку з використанням методів інтелектуального аналізу даних та машинного
навчання.
Для досягнення поставленої мети передбачається виконання таких завдань:
1. Проаналізувати сучасні підходи до виявлення підозрілої активності у
комп’ютерних мережах та визначити їхні переваги й обмеження;
2. Дослідити статистичні методи та ML-алгоритми, що застосовуються для
аналізу високовимірних даних і виявлення аномалій;
3. Сформувати та підготувати набір даних, здійснити статистичну обробку;
4. Розробити модель виявлення підозрілої активності, використовуючи обрані
алгоритми машинного навчання;
5. Провести оцінювання якості моделі на основі статистичних метрик;
6. Обґрунтувати практичну придатність моделі та визначити можливості її
застосування у реальних системах моніторингу мережевої безпеки.
Об’єкт дослідження - процеси аналізу мережевого трафіку та виявлення
підозрілої активності в інформаційних системах.
Предмет дослідження - статистичні методи, моделі та алгоритми
машинного навчання, що застосовуються для виявлення аномальної та потенційно
небезпечної мережевої активності.
7
1 АНАЛІЗ ПІДОЗРІЛОЇ АКТИВНОСТІ В КОМП’ЮТЕРНИХ
МЕРЕЖАХ ТА МЕТОДІВ ЇЇ ВИЯВЛЕННЯ
1.1 Поняття підозрілої активності, аномалій та кіберзагроз у
комп’ютерних мережах
Підозріла активність у комп’ютерних мережах охоплює широкий спектр дій
та подій, що потенційно порушують нормальний режим функціонування
інформаційних систем або можуть свідчити про ймовірну кібератаку. До
підозрілих відносять активності, які не відповідають типовій поведінці
користувачів, системних процесів чи мережевих сервісів. Це можуть бути
незвичні запити, нетипово високий обсяг трафіку, звернення до заборонених
ресурсів, використання нестандартних портів чи протоколів. Виявлення таких
подій потребує застосування формальних критеріїв, статистичного аналізу та
методів оцінювання ризику, оскільки не кожне відхилення є атакою, але може
бути важливим сигналом.
Поняття «аномалія» у контексті мережевої безпеки тісно пов’язане з ідеєю
відхилення від нормальної поведінки. Аномалією вважається така подія або
спостереження, яке статистично або функціонально не узгоджується з типовими
характеристиками мережевого трафіку. Нормальна мережна поведінка
визначається відповідно до профілів користувачів, історичних даних або моделей
нормального трафіку. Аномалії можуть виникати як унаслідок кібератак, так і
через збої обладнання, помилки конфігурації або внутрішні організаційні зміни.
Тому коректне трактування аномалій є складним завданням, що потребує
використання статистичних моделей, алгоритмів машинного навчання та
контекстного аналізу.
Кіберзагрози представляють собою навмисні або ненавмисні дії, спрямовані
на порушення конфіденційності, цілісності або доступності інформаційних
ресурсів. Сучасні загрози часто відзначаються високою складністю, модульністю
8
та здатністю до адаптації. Вони можуть охоплювати різні типи атак: сканування
портів, спроби підбору паролів, міжмережеве проникнення, розповсюдження
шкідливого ПЗ, DDoS-атаки тощо. Крім зовнішніх загроз, особливу роль
відіграють внутрішні інсайдерські ризики, де шкідливі дії здійснюються
авторизованими користувачами. Це посилює потребу в системах аналізу
поведінки та виявлення відхилень.
У контексті аналізу мережевого трафіку важливо розрізняти підозрілу
активність і безпосередню кібератаку. Підозріла активність є лише індикатором,
який може, але не обов’язково повинен свідчити про загрозу. Наприклад, раптове
збільшення кількості пакунків ICMP може бути ознакою майбутнього DDoS-
навантаження, але також може бути результатом технічного тестування мережі.
Таким чином, завдання систем моніторингу полягає у точному визначенні
патернів поведінки, які відрізняють нормальну активність від потенційно
небезпечної. Статистичні підходи дозволяють будувати моделі розподілу трафіку,
знаходити нетипові розсіювання даних, визначати відхилення та оцінювати
ступінь їхньої важливості.
Одним із ключових аспектів виявлення аномалій є динамічність мережевих
систем. У реальних умовах обсяг трафіку та поведінка користувачів змінюються
залежно від часу доби, днів тижня, сезонних тенденцій або службових задач. Це
створює складність у формуванні стабільної моделі нормальної поведінки, а
традиційні статистичні методи можуть не враховувати такі коливання. Методи
машинного навчання, зокрема алгоритми без учителя (кластеризація,
автоенкодери, побудова щільності), здатні адаптуватися до змінних характеристик
даних та автоматично оновлювати параметри моделей, що робить їх особливо
ефективними для детектування підозрілої активності.
Окремої уваги потребує підхід до класифікації аномалій як точкових,
контекстних та колективних. Точкові аномалії відображають окремі записи, що
виходять за межі нормального розподілу. Контекстні аномалії визначаються
умовами, у яких вони з’являються, наприклад, нетипово високий трафік у нічний
час. Колективні аномалії проявляються лише в сукупності подій, наприклад,
9
послідовність команд, що свідчить про спробу проникнення. Така класифікація
має важливе практичне значення для побудови систем виявлення загроз, оскільки
дозволяє застосовувати відповідні статистичні та ML-підходи для кожного типу
аномалій.
1.2 Класифікація аномалій у контексті аналізу мережевого трафіку
Класифікація аномалій у мережевому трафіку є ключовим елементом
побудови ефективних систем виявлення підозрілої активності. Усі аномалії
умовно поділяють на три основні типи: точкові (point anomalies), контекстні
(contextual anomalies) та колективні (collective anomalies). Такий поділ забезпечує
більш точне визначення природи відхилень і дозволяє застосовувати адекватні
методи статистичного аналізу та машинного навчання. Кожен із зазначених класів
має свої специфічні особливості, що визначають підходи до їх виявлення та
інтерпретації.
Візуалізуємо вказані аномальні дані в двовимірному просторі, оскільки в
ньому досить зручно бачити конкретний результат. Подібний аналіз буде
відповідати і більш складним структурам, які неможливо відобразити і які є
багатомірними. Наприклад, точкові двовимірні аномалії (point anomalies, рис.1.1)
характеризуються одиничними спостереженнями, які суттєво відхиляються від
очікуваної поведінки або статистично нормального розподілу трафіку.
Рисунок 1.1 - Ілюстрація point anomalies в даних
10
Вони часто є результатом випадкових збоїв, помилкових пакетів або
одноразових спроб зловмисних дій. У мережевому моніторингу точковою
аномалією може бути, наприклад, одиничний пакет з недопустимими
параметрами або раптовий викид значення певного показника. Для їх виявлення
застосовують методи статистичного контролю, аналіз відстаней (kNN), моделі
щільності, Isolation Forest, а також класичні статистичні підходи на кшталт Z-
оцінок або інтерквартильного розмаху.
Контекстні аномалії виникають тоді, коли значення показника може бути
нормальним само по собі, але нетиповим для конкретних умов функціонування
системи (рис.1.2).
Рисунок 1.2 - Ілюстрація contextual anomalies в даних
Це означає, що контекст відіграє визначальну роль у визначенні відхилення.
Прикладом може бути збільшення кількості HTTP-запитів у нічний час або
аномально високе навантаження в сегменті мережі, який зазвичай має низьку
активність. Контекстні аномалії часто пов’язані з поведінковими
характеристиками користувачів та інфраструктури, тому їх виявлення потребує
побудови моделей часових рядів, класифікації у контекстних просторах та аналізу
сезонних або циклічних закономірностей.
Колективні аномалії визначаються не окремими значеннями, а групами
подій або послідовностями дій, які разом формують патерн, що не відповідає
нормальному функціонуванню (рис.1.3).
11
Рисунок 1.3 - Ілюстрація collective anomalies в даних
До таких аномалій належать, наприклад, численні послідовні невдалі
авторизації, підготовчі етапи складної атаки або систематичне сканування портів
з певною періодичністю. Колективні аномалії є особливо небезпечними, оскільки
вони часто відображають тривалі, добре замасковані або багатоступеневі атаки. Їх
виявлення реалізується за допомогою моделей послідовностей, таких як
Марківські процеси, LSTM-моделі, автоенкодери для часових рядів або
кластеризація у динамічному просторі ознак.
З точки зору статистичного аналізу, кожен тип аномалій потребує різних
підходів до моделювання. Точкові аномалії зазвичай виявляються через оцінку
розподілу даних та пошук значень, що виходять за межі довірчих інтервалів.
Контекстні аномалії потребують моделей, які враховують багатовимірний
контекст — час, навантаження, тип сервісу, поведінкові характеристики
користувачів. Колективні аномалії вимагають аналізу взаємозв’язків між подіями,
а також методів виявлення зміни структури даних у часовому вимірі.
Важливо зазначити, що у реальних умовах мережеві аномалії часто змішані
та можуть проявлятися одночасно кількома типами. Наприклад, серія
колективних аномалій може починатися з точкового відхилення або включати
контекстні аспекти, залежні від часу доби чи робочих сценаріїв. Тому сучасні
системи виявлення загроз поєднують різні статистичні й ML-методи, що дозволяє
формувати комплексні моделі поведінки. Така інтеграція забезпечує значно вищу
12
точність у виявленні підозрілої активності та зменшує кількість хибно-
позитивних сповіщень.
1.3 Основні типи атак у мережах та їх ознаки
Одним із найпоширеніших і водночас найбільш деструктивних типів атак у
мережах є атаки типу DoS (Denial of Service) та їх розширена форма DDoS
(Distributed Denial of Service). Метою таких атак є перевантаження мережевого
ресурсу — сервера, маршрутизатора чи каналу зв’язку — шляхом надмірної
кількості запитів або пакетів, що робить сервіс недоступним для легітимних
користувачів (рис.1.4).
Рисунок 1.4 - Реалізація атаки типу DoS (DDoS)
До характерних ознак DoS/DDoS належать: різке зростання обсягу трафіку,
часте повторення однотипних запитів, збільшений рівень ICMP або SYN-пакетів,
а також істотне зниження продуктивності сервера. Дослідження DoS/DDoS-
активності потребує застосування статистичних моделей навантаження та методів
детектування аномального сплеску трафіку.
13
Іншим поширеним типом мережевих атак є сканування портів та виявлення
вразливостей (рис.1.5).
Рисунок 1.5 - Реалізація атаки сканування портів
Зловмисники використовують порт-сканування для ідентифікації служб,
відкритих портів та версій програмного забезпечення, з метою подальшої
експлуатації вразливостей. Сканування може бути горизонтальним (по різних
вузлах з одним портом), вертикальним (усі порти на одному хості) або
комбінаційним. Типові ознаки сканування включають: підвищену кількість SYN-
пакетів без подальшого встановлення з’єднання, систематичні звернення до порту
з коротким інтервалом часу, а також нетипові запити до служб, що не
використовуються у мережі. Виявлення таких дій ґрунтується на аналізі часових
закономірностей та частотних характеристик трафіку.
До критичних атак локального сегмента мережі належать ARP-spoofing та
ARP-poisoning, які використовуються для перехоплення або перенаправлення
трафіку (рис.16).
14
Рисунок 1.6 - Перехоплення або перенаправлення трафіку зловмисником на
канальному рівні
Атака полягає у надсиланні підроблених ARP-відповідей, що змушують
жертву асоціювати IP-адресу зловмисника з MAC-адресою легітимного хоста або
шлюза. Ознаками ARP-підміни є: поява дубльованих або неочікуваних MAC-
адрес у ARP-таблиці, часті ARP-відповіді без ARP-запитів, різке збільшення ARP-
трафіку, а також зміна маршруту трафіку. Виявлення ARP-підміни потребує
побудови статистичних профілів відповідності MAC–IP та використання методів
аналізу аномалій.
Особливу загрозу для корпоративних і глобальних мереж створюють
ботнети — мережі заражених пристроїв, якими віддалено керує зловмисник.
Мережа скомпрометованих комп'ютерів називається ботнетом (рис.1.7).
Рисунок 1.7 - Типова архітектура ботнета
15
Скомпрометовані комп'ютери також називають зомбі або ботами. Це
програмне забезпечення здебільшого написано на C++ та C.
Ботнети виконують різні шкідливі дії: масові DDoS-атаки, розсилання
спаму, поширення шкідливого ПЗ, майнінг криптовалют, сканування мереж тощо.
Ознаки ботнет-активності включають: регулярні вихідні з’єднання на нетипові
порти, періодичні звернення до командно-керуючих серверів (C2), однотипність
або чітку циклічність пакетів, використання зашифрованих або нестандартних
протоколів. Статистичний аналіз поведінки хостів дозволяє виявити координовані
дії, характерні саме для ботнетів.
Man-in-the-Middle (MitM)–атаки становлять серйозну загрозу
конфіденційності даних, оскільки дозволяють зловмиснику перехоплювати або
модифікувати пакети під час їх передачі між сторонами. До поширених способів
реалізації MitM належать ARP-підміна, DNS-підробка, перехоплення Wi-Fi-
трафіку або використання фальшивих точок доступу. Ознаками таких атак є
розриви у ланцюжку сертифікатів, зміни у маршрутизації, невідповідність IP–
MAC-асоціацій, нестандартні зміни параметрів SSL/TLS-з’єднань. Виявлення
MitM вимагає глибокого аналізу трафіку та статистичних методів оцінювання
відхилень у маршрутах передавання даних.
Серед інших важливих загроз виділяють атаки на автентифікацію, зокрема
password guessing, brute force та credential stuffing. Ці атаки спрямовані на
компрометацію облікових записів через багаторазові підбори паролів або
використання злитих даних. Їх ознаки включають: велику кількість невдалих
логінів, спроби авторизації в нетиповий час, використання широкого діапазону IP-
адрес чи проксі. Для таких атак ефективними є методи аналізу частотних
характеристик подій, виявлення аномальних послідовностей та поведінкове
профілювання користувачів.
Важливою групою є атаки на мережеві сервіси та протоколи, що включають
експлуатацію вразливостей у серверних застосунках, переповнення буфера,
SQL/LDAP/SMTP-ін’єкції, а також атаки на DNS, DHCP і SNMP. Ознаками таких
атак є: нетипові параметри протоколів, некоректні запити, командні
16
послідовності, які відрізняються від нормальної поведінки клієнтів, а також
підозріла активність на серверах додатків. Виявлення таких загроз вимагає
аналізу семантичних характеристик запитів, статистичних моделей поведінки
протоколів та машинного навчання для класифікації пакетів.
Атаки, орієнтовані на протоколи (Protocol-Specific Attacks) — це клас
кібератак, що використовують вразливості або особливості функціонування
конкретних мережевих чи комунікаційних протоколів з метою порушення роботи
системи, отримання несанкціонованого доступу або маніпулювання передаваними
даними. Оскільки кожен протокол визначає власний набір правил, форматів
повідомлень та механізмів взаємодії, зловмисники можуть експлуатувати їхні
слабкі місця, створюючи атаки, характерні саме для даного протоколу (рис. 1.8).
Рисунок 1.8 - Приклад загрози, що виникає через експлуатацію
протокольних вразливостей
До атак цього типу належать, зокрема, загрози на рівні протоколу HTTP.
Вони можуть включати експлуатацію механізмів передачі даних у веб-
середовищі, зокрема атаки типу Cross-Site Scripting (XSS), Cross-Site Request
Forgery (CSRF) або маніпуляції автентифікаційними процедурами. Такі атаки
спрямовані на використання недоліків реалізації або логіки HTTP-протоколу.
Іншим прикладом є атаки на протокол SMTP, що застосовується для
передавання електронної пошти. До них належать масові спам-розсилки,
17
фішингові кампанії та зловживання функціями поштових серверів для отримання
доступу до адресних книг або компрометації облікових записів.
Значна частина загроз пов’язана також з експлуатацією стеку TCP/IP. До
таких атак належать маніпуляції з фрагментацією пакетів, атаки на механізми
встановлення з’єднань, спроби переповнення буферів, а також інші дії,
спрямовані на порушення цілісності чи доступності мережевого обміну даними.
Особливо небезпечними є атаки на протоколи безпеки, такі як SSL/TLS або
IPsec. Зловмисники можуть використовувати вразливості в криптографічних
механізмах або реалізаціях протоколів, намагаючись послабити або обійти
механізми конфіденційності та захисту даних під час їх передавання.
Також поширені атаки на VoIP-протоколи, в межах яких зловмисники
можуть здійснювати перехоплення голосового трафіку, ініціювати DoS-атаки на
служби IP-телефонії або втручатися у проведення конференцій та приватних
розмов.
Для протидії протокольним атакам необхідно проводити комплексну оцінку
використовуваних мережевих протоколів та їхніх реалізацій, застосовувати
коректні політики фільтрації трафіку, забезпечувати шифрування передаваних
даних, своєчасно оновлювати програмне забезпечення та використовувати
інтелектуальні системи виявлення загроз, здатні ідентифікувати аномалії у
протокольній взаємодії.
Комплексний аналіз зазначених атак засвідчує, що різні типи кіберзагроз
мають свої характерні ознаки, проте спільною рисою є їх виявлення через
аномалії у поведінці мережі. Саме тому сучасні системи моніторингу поєднують
статистичні методи, моделі поведінки та алгоритми машинного навчання. Таке
поєднання забезпечує здатність виявляти не лише відомі сигнатурні загрози, але й
нові, неідентифіковані типи атак, що робить підхід Data Science особливо
ефективним у кіберзахисті.
18
1.4 Аналіз методів виявлення аномалій в мережі
Методи виявлення мережевих вторгнень (Intrusion Detection Systems, IDS)
визначаються особливостями роботи конкретної мережі та покликані здійснювати
її моніторинг з метою фіксації підозрілої чи шкідливої активності, а також
мінімізації кількості хибних спрацювань. Основні підходи до побудови IDS
наведено на рис. 1.9 і можуть бути узагальнені таким чином.
Рисунок 1.9 - Класифікація основних підходів методів IDS
Існує широкий спектр методів і підходів до виявлення мережевих
вторгнень, проте їх зазвичай поділяють на дві ключові групи: сигнатурні
(signature-based) та аномальні (anomaly-based).
Сигнатурний аналіз ґрунтується на використанні заздалегідь визначених
ознак, притаманних певним типам атак. Сигнатура являє собою специфічний
фрагмент даних, послідовність байтів або інший характерний патерн, що
однозначно асоціюється з відомою загрозою чи шкідливим програмним
забезпеченням. Такі сигнатури формуються на основі ретельного аналізу вже
ідентифікованих атак і їхніх поведінкових характеристик.
Сутність сигнатурного підходу полягає в порівнянні поточного мережевого
трафіку або активності з великою базою відомих шаблонів. Кожна сигнатура
19
відповідає певному типу атаки, а тому збіг будь-якого з цих шаблонів з
аналізованими даними розглядається як індикатор потенційного вторгнення.
Під час моніторингу мережі система виявлення вторгнень (IDS) здійснює
безперервну перевірку пакета трафіку, логів і поведінкових характеристик на
наявність відповідності цим відомим патернам. У разі виявлення збігу між
поточними даними та однією зі сигнатур система сигналізує про можливу атаку
або іншу небезпечну активність (рис. 1.10).
Рисунок 1.10 - Сигнатурний метод та його представлення для виявлення
аномальної поведінки мережі
Системи виявлення вторгнень використовують базу сигнатур, що містить
структурований набір описів відомих атак. Ця база постійно актуалізується,
оскільки зловмисники безперервно розробляють нові методи компрометації
мережевих систем. Сигнатури можуть охоплювати різні рівні функціонування
мережі: від шаблонів, що описують атаки на мережевому рівні (зокрема DoS чи
SYN-flood), до аплікаційних сигнатур, які фіксують прояви атак типу SQL-ін’єкції
чи XSS, а також ознак, характерних для експлуатації вразливостей операційних
систем.
20
Завдяки своїй природі сигнатурний підхід забезпечує високу точність і
низький рівень хибних спрацювань, оскільки порівняння здійснюється з чітко
визначеними, заздалегідь верифікованими шаблонами. Він демонструє високу
ефективність у виявленні атак, що вже добре описані в літературі або практиці, і
може бути відносно просто інтегрований у існуючі системи безпеки.
Разом з тим цей підхід має фундаментальне обмеження: він не здатен
розпізнати нові або модифіковані атаки, які ще не представлені в базі сигнатур.
Зловмисники можуть навмисно змінювати структуру трафіку, трансформувати
шкідливий код або використовувати нестандартні техніки маскування, що
унеможливлює виявлення загрози лише за допомогою статичних шаблонів.
Регулярне оновлення бази сигнатур є ключовим елементом підтримання
ефективності цього методу, оскільки лише оперативне додавання нових визначень
дозволяє IDS реагувати на актуальні загрози. Водночас сигнатурний підхід
доцільно використовувати у поєднанні з іншими методами, зокрема з аномальним
аналізом, що дає змогу суттєво розширити можливості системи та забезпечити
всебічний контроль за мережевою активністю.
Аномальні методи. Аномальний метод виявлення вторгнень (IDS)
ґрунтується на аналізі відхилень від характерного, «нормального» стану мережі
чи системи. Його ключова ідея полягає в тому, що нетипові, статистично рідкісні
або поведінково незвичні події можуть свідчити про потенційну атаку чи іншу
небезпечну активність. Відповідно, будь-які значущі відхилення від усталених
параметрів роботи розглядаються як можливі індикатори загрози.
Системи цього типу формують модель нормальної поведінки, що описує
типові характеристики мережевого трафіку, частоту звернень, часові патерни,
обсяг і структуру даних, а також інші властивості, притаманні штатному режиму
функціонування. На основі цієї моделі IDS аналізує поточну активність і визначає
аномалії як відхилення, що виходять за межі допустимих норм.
Для реалізації такого підходу широко застосовуються статистичні методи
та алгоритми машинного навчання, які дозволяють виявляти нелінійні
21
залежності, рідкісні події та складні поведінкові патерни. Ці алгоритми
навчаються на даних, що відображають здоровий стан мережі, і надалі
автоматично ідентифікують відхилення від сформованого профілю (рис. 1.11).
Рисунок 1.11 - Реалізація методу виявлення аномалій для систем IDS
У рамках аномального підходу система спочатку проходить етап навчання,
під час якого формуються ознаки нормальної або допустимої поведінки мережі.
На цьому етапі відбувається накопичення статистичних характеристик і
визначення типових профілів активності. Після навчання IDS здійснює постійний
моніторинг і порівнює поточні значення з еталонною моделлю, що дозволяє
оперативно виявляти потенційні загрози, включно з новими або раніше
невідомими видами атак.
Після формування моделі нормальної поведінки система переходить до
моніторингу мережевої активності в реальному часі, порівнюючи поточні дані з
еталонними зразками. Будь-які значущі відхилення від очікуваних параметрів
розглядаються як потенційні аномалії або ознаки вторгнення. У разі виявлення
22
таких відхилень IDS формує відповідне сповіщення для адміністратора або
автоматично активує заходи реагування, спрямовані на локалізацію чи
попередження можливої атаки.
Аномальні системи виявлення вторгнень використовують широкий спектр
методів аналізу даних, включаючи статистичні моделі, алгоритми машинного
навчання, методи штучного інтелекту, кластеризацію та інші інструменти
аналітики. Вони дають змогу виявляти складні нелінійні патерни та рідкісні події,
які важко зафіксувати традиційними підходами.
Наприклад, статистичні методи припускають, що дані відповідають
певному розподілу (наприклад, гаусовому), та визначають точки даних, які
виходять за межі очікуваних діапазонів. Для оцінки таких меж використовують
(рис.1.12):
• метод Z-оцінки: позначаються бали, що перевищують k стандартних
відхилень від середнього значення;
• метод тесту Граббса / міжквартильного розгляду: виявляє викиди на
основі статистичних порогів.
а) б)
Рисунок 1.12 - Представлення статистичних метрик для виявлення
аномальних даних у вигляді Z-оцінок (а) та міжквартильного розгляду (б)
23
При застосуванні машинного навчання важливим аспектом є вибір
інформативних ознак, за якими здійснюється виявлення аномалій. Такими
ознаками можуть бути мережеві параметри (швидкість передачі, кількість
з’єднань, розмір пакетів), системні метрики, часові ряди або будь-які інші
характеристики, що відображають нормальний стан середовища.
Однією з ключових проблем аномальних IDS є висока ймовірність хибних
спрацювань (false positives), коли нормальна активність помилково
інтерпретується як підозріла. Тому правильне налаштування моделі, оптимізація
порогів та збалансований вибір ознак є критично важливими для зменшення
кількості таких помилок.
Попри це, аномальний підхід дає змогу виявляти атаки на ранніх етапах і
оперативно запобігати їхнім наслідкам. Його значною перевагою є здатність
розпізнавати нові або невідомі загрози, що не мають попередньо визначених
сигнатур. Однак ефективність такого методу значною мірою залежить від якості
навчальних даних і може знижуватися у випадках, коли зловмисники намагаються
маскувати свою активність під нормальну поведінку.
Гібридні методи виявлення аномалій в даних. Гібридний метод
виявлення вторгнень (IDS) — це підхід, що поєднує кілька різних технік аналізу
для підвищення точності та надійності виявлення шкідливої активності в мережі
чи системі. Основна ідея такого підходу полягає у використанні сильних сторін
кожного методу та одночасному мінімальному впливі їхніх обмежень. У межах
гібридного IDS інтегруються різні моделі виявлення, зокрема сигнатурні підходи,
аномальні методи, алгоритми машинного навчання та статистичні засоби аналізу.
Комбінування цих технік дає змогу створити більш повне та ефективне рішення
для виявлення широкого спектра загроз (рис. 1.13).
24
Рисунок 1.13 - Візуальне представлення комбінації сигнатурних та
аномальних методів в системі IDS
Однією з ключових проблем гібридних методів є необхідність мінімізації
хибних спрацьовувань (false positives), коли нормальна активність помилково
класифікується як загрозлива. Використання даних із кількох джерел дозволяє
таким системам суттєво знижувати ймовірність подібних помилок. Окрім цього,
гібридні IDS демонструють високу ефективність у виявленні нових та раніше
невідомих атак, адже здатні поєднувати сигнатурний аналіз із аномальними
підходами, що дає змогу розпізнавати загрози, яких немає у базах сигнатур.
Гібридні системи також здатні інтегрувати результати різних методів та
приймати рішення на основі їх порівняння. Наприклад, якщо сигнатурний та
аномальний аналіз дають різні висновки щодо певної події, система може
застосувати механізм узгодження для формування остаточного висновку. Крім
того, такі системи мають здатність адаптуватися до змін у поведінці
атакувальників: вони оновлюють сигнатури, перенавчають моделі та коригують
параметри аномального аналізу.
Гібридний IDS легко інтегрується з іншими засобами
кіберзахисту - брандмауерами, антивірусними рішеннями чи системами
управління інцидентами, що дозволяє підвищити загальний рівень безпеки
мережі. Завдяки поєднанню різних технік та багаторівневому аналізу гібридний
метод забезпечує вищу точність виявлення вторгнень та зменшує ризик хибних
спрацьовувань.
25
В машинному навчанні окрім статистичних методів використовується низка
інших, наприклад методи, що базуються на дистанції. Такі методи припускають,
що аномалії знаходяться на великій відстані від нормальних точок даних. До
таких методів, наприклад, відносять (рис.1.14):
• K-найближчих сусідів (k-NN) : якщо точка знаходиться далеко від
своїх k найближчих сусідів, це аномалія;
• відстань Махаланобіса : використовується для вимірювання відстані від
багатовимірного середнього значення.
Рисунок 1.14 - Методи виявлення аномалій на основі дистанцій
Методи машинного навчання на основі щільності -вони оцінюють
щільність навколо точки та визначають аномалії, як-от ті, що знаходяться в
розріджених областях. Ідея такого підходу демонструється в наступних
реалізаціях:
• локальний коефіцієнт випадіння (LOF): обчислює локальне відхилення
щільності точки порівняно з її сусідами;
• DBSCAN: точки, що не належать до жодного щільного кластера,
вважаються викидами.
Приклад: у мережевому трафіку раптові ізольовані сканування портів, які не
відповідають відомим комунікаційним кластерам.
26
а) б)
Рисунок 1.15 - Методи виявлення аномалій на основі дистанцій
Виявлення аномалій часових рядів. Послідовні дані – це дані, записані в
певному часовому порядку. Кожна точка даних пов’язана з певним часом, і її
значення часто залежить від значень до або після неї. Ця залежність від часу
відрізняє їх від типових «статичних» даних. Прикладами даних часових рядів є:
• використання процесора реєструється щосекунди;
• показники температури щогодини;
• частота серцевих скорочень, виміряна з плином часу;
• щоденні ціни акцій тощо.
У таких даних виявлення аномалії стосується не лише одного незвичайного
значення, а й відхилення від очікуваних закономірностей з часом (рис.1.16).
На відміну від звичайних методів виявлення аномалій, які розглядають
значення окремо, виявлення аномалій часових рядів повинно враховувати:
• тенденції (наприклад, зростаючі або спадні закономірності)
• сезонність (наприклад, щоденні або щотижневі повторювані дії)
• раптові сплески або падіння , які порушують ці закономірності
27
Рисунок 1.16 - Демонстрація наявності викидів в часовому ряді
Виявлення аномалій – це потужний інструмент для пошуку незвичайних
закономірностей у даних. Ці закономірності можуть свідчити про шахрайство,
системні помилки, атаки на безпеку або ризики для здоров'я, вторгнення в
комп'ютерну мережу та ін. Для виявлення аномалій можна використовувати різні
методи, такі як статистичні правила, моделі машинного або глибинного навчання.
1.5 Порівняльний аналіз традиційних методів виявлення мережевих
загроз з ML/AI методами
Традиційні підходи до виявлення загроз у мережах, зокрема сигнатурні
системи та методи ручного аналізу, історично забезпечували основу для побудови
механізмів кіберзахисту. Проте із зростанням складності атак, масштабів мереж та
інтенсивності генерованих даних ці методи поступово втрачають ефективність.
Сучасні кіберзагрози характеризуються високою варіативністю, адаптивністю та
здатністю обходити захисні механізми, що створює суттєві обмеження для
класичних засобів виявлення.
Одним із ключових недоліків традиційних систем є їхня залежність від
попередньо відомих шаблонів. Сигнатурні IDS здатні ідентифікувати лише ті
атаки, сигнатури яких уже включені до бази даних. Це означає, що будь-які нові,
28
модифіковані або цілеспрямовано масковані атаки залишаються поза зоною
їхнього виявлення. Таким чином, класичні методи не забезпечують захист від
невідомих загроз - однієї з найсерйозніших проблем сучасного кіберпростору.
Ще одним недоліком є низька масштабованість та висока трудомісткість
традиційного моніторингу. У великих корпоративних мережах обсяг трафіку
може досягати терабайтних величин на добу, що робить ручний аналіз практично
неможливим. Навіть автоматизовані системи сигнатурного аналізу втрачають
ефективність при різкому збільшенні кількості нових типів атак або швидких змін
у структурі трафіку.
Крім того, класичні підходи часто демонструють недостатню гнучкість
щодо адаптації до змін у поведінці користувачів, систем або додатків. У випадках,
коли поведінка легітимних користувачів змінюється, традиційні системи можуть
генерувати численні хибні спрацювання або, навпаки, пропускати небезпечну
активність, якщо вона замаскована під нормальну.
На цьому тлі методи машинного навчання та штучного інтелекту
відкривають якісно нові можливості в галузі виявлення загроз. На відміну від
сигнатурних підходів, ML/AI-системи здатні формувати узагальнену модель
поведінки, навчатися на великих обсягах історичних та реальних даних і виявляти
закономірності, які неможливо помітити за допомогою традиційних методів. Це
дозволяє виявляти як відомі, так і раніше невідомі види атак.
Важливою перевагою ML/AI-підходів є їхня здатність до адаптивного
навчання. Такі системи можуть автоматично оновлювати свої внутрішні моделі,
враховувати нові типи поведінки та підлаштовуватися під зміну мережевого
середовища. Це істотно підвищує актуальність та ефективність механізмів
виявлення у динамічних умовах.
Також алгоритми машинного навчання здатні ефективно працювати з
високовимірними даними та виявляти складні нелінійні залежності, що є
типовими для сучасного мережевого трафіку. Використання кластеризації, дерев
рішень, нейронних мереж, автоенкодерів та інших моделей забезпечує
29
можливість гнучкого опису нормальної поведінки та точного визначення її
відхилень.
Ще однією істотною перевагою є можливість значного зниження кількості
хибних спрацювань. ML/AI-моделі, особливо ті, що базуються на аналізі
поведінки, можуть точніше розмежовувати легітимну та аномальну активність,
враховуючи широкий контекст подій. Це підвищує якість виявлення загроз та
зменшує навантаження на адміністратора безпеки.
1.6 Висновки
Перший розділ присвячено систематичному аналізу природи аномалій у
даних та мережевому трафіку, їх класифікації та ключових характеристик.
Розглянуто особливості точкових, контекстних і колективних аномалій, їхню роль
у процесах виявлення загроз, а також специфіку виникнення цих відхилень у
мережевому середовищі. Окрему увагу приділено аналізу типових атак, які
можуть формувати аномалії у трафіку, - від DDoS та сканування портів до підміни
ARP і botnet-активності.
У розділі також досліджено традиційні підходи до виявлення вторгнень,
включно з сигнатурними, аномальними та гібридними методами, а також
визначено їхні переваги та недоліки. Показано, що класичні рішення IDS, хоча й
забезпечують базовий рівень безпеки, мають обмеження у виявленні нових або
модифікованих атак, а також схильні до хибних спрацьовувань, що негативно
впливає на загальну ефективність систем захисту. Проаналізовано можливості
комбінування різних методів для підвищення точності та швидкості реакції IDS.
Зроблено висновок, що сучасні виклики аналізу даних вимагають
застосування більш гнучких та адаптивних технологій, зокрема методів
машинного навчання та штучного інтелекту. Саме вони дозволяють формувати
динамічні моделі нормальної поведінки, виявляти складні та раніше невідомі
загрози, зменшувати кількість хибних спрацьовувань і підвищувати рівень
автоматизації. Таким чином, у подальших розділах обґрунтовується необхідність
30
переходу до ML/AI-орієнтованих систем виявлення загроз як перспективного
напрямку розвитку IDS.
31
2 МЕТОДОЛОГІЧНІ ОСНОВИ ПОБУДОВИ МОДЕЛЕЙ ВИЯВЛЕННЯ
МЕРЕЖЕВИХ ВТОРГНЕНЬ
2.1 Вибір стратегії дослідження та обґрунтування методів
Обґрунтування вибору моделей ML. У межах методологічного підходу
важливим етапом є обґрунтований вибір моделей машинного навчання, які будуть
досліджуватися у подальшому експериментальному розділі. Мета підбору полягає
не лише у тестуванні окремих алгоритмів, а й у формуванні цілісної стратегії
аналізу мережевого трафіку для майбутнього виявлення вторгнень. Тому доцільно
відібрати моделі, що представляють різні класи алгоритмів і реалізують
альтернативні підходи до класифікації. Такий підхід дозволить у розділі 3
комплексно порівняти їх поведінку й визначити оптимальні рішення для IDS.
Першою групою до дослідження включаються базові, фундаментальні
класифікатори, такі як Naive Bayes та K-Nearest Neighbors. На етапі методології
вони виконують роль контрольних моделей, що дозволяють зрозуміти базову
ефективність простих підходів перед тим, як переходити до складніших
алгоритмів. Naive Bayes забезпечує швидке статистичне порівняння, тоді як KNN
дозволяє дослідити поведінку моделі, що класифікує об’єкти на основі
“близькості” у просторі ознак. Їх включення в методологію дає змогу визначити
відправну точку для подальшої оптимізації.
Далі в методологічну схему додаються деревоподібні алгоритми, які
представляють собою більш інтерпретовані та структурно гнучкі моделі. Decision
Tree дозволить у розділі 3 детально відстежити логіку прийняття рішень і
визначити, які ознаки відіграють ключову роль у процесі класифікації. Random
Forest, як ансамбль багатьох дерев, виступає більш стабільним і стійким до шуму
методом, а тому його результати стануть важливою частиною порівняльного
аналізу. Методологічно включення деревоподібних моделей дає змогу охопити як
прості, так і ансамблеві підходи в одному класі алгоритмів.
32
Окремим блоком методології є градієнтний бустинг, представлений
XGBoost. Ця модель відома здатністю працювати з великими та складними
наборами даних, враховувати нелінійні залежності та ефективно боротися з
перенавчанням завдяки регуляризації. На етапі вибору методів її включено до
переліку алгоритмів для тестування, оскільки саме такі моделі часто
демонструють провідні результати у задачах класифікації складних мережевих
патернів. XGBoost дозволить оцінити переваги бустингових технік порівняно з
деревами та статистичними методами.
Не менш важливо включити модель CatBoost, яка спеціалізується на роботі
з категоріальними ознаками. У контексті мережевого трафіку значна частина
параметрів є саме категоріальними або змішаними, а тому CatBoost буде
корисним у методології як модель, що мінімізує необхідність складної
попередньої обробки даних. Завдяки цьому можна буде оцінити, наскільки
автоматизована робота з категоріями впливає на стабільність та узагальнення
моделі, що стане важливим фактором при подальшому зіставленні результатів.
Таким чином, уже в розділі 3 буде можливість оцінити, наскільки
ефективним є підхід до голосування — і чи перевершує він окремі моделі за
точністю та стабільністю.
Критерії інтерпретованості. Під час формування набору моделей для
подальшого експериментального аналізу ключовим методологічним елементом
стали критерії інтерпретованості. У задачах виявлення мережевих вторгнень
важливо не лише отримати високі метрики, але й мати можливість пояснити, чому
модель приймає те чи інше рішення. Саме тому до переліку були включені
Decision Tree та Random Forest як моделі, здатні надавати інформацію про
важливість ознак і логіку класифікації. Це дозволить у наступному розділі
оцінити, наскільки прозорими є рішення моделі й чи можна їх використовувати в
практичних системах безпеки.
Іншим суттєвим фактором став рівень алгоритмічної складності та час
навчання, які безпосередньо впливають на придатність моделі для реальних
систем IDS. Наприклад, KNN є простим для реалізації, але повільним під час
33
класифікації великих наборів даних, тоді як XGBoost і CatBoost потребують
більше ресурсів на тренування, але забезпечують високу точність у складних
завданнях. Включення алгоритмів із різною складністю дозволить у розділі 3
порівняти їхню продуктивність і визначити баланс між швидкістю роботи та
якістю класифікації.
Також важливим критерієм була стійкість моделей до шуму, викидів та
дисбалансу класів, які є типовими для мережевого трафіку. Ансамблеві
алгоритми, такі як Random Forest та XGBoost, зазвичай демонструють вищу
стійкість, тоді як моделі на кшталт Naive Bayes можуть бути чутливими до
особливостей розподілу ознак. Тому їх одночасне включення в методологію
дозволить у подальшому оцінити, які з алгоритмів найбільш надійні в умовах
реальних мережевих даних, та сформувати рекомендації щодо їх практичного
У межах методології дослідження висувається гіпотеза, що ансамблеві
моделі машинного навчання здатні забезпечити вищу якість виявлення
мережевих аномалій порівняно з окремими базовими алгоритмами. Це
ґрунтується на відомому принципі, згідно з яким поєднання кількох різних
слабких або сильних моделей дозволяє компенсувати індивідуальні недоліки
кожної з них. У контексті IDS це особливо важливо, оскільки мережевий трафік
характеризується високою варіативністю, наявністю шуму, малими кластерами
аномалій та складними нелінійними взаємозв’язками між ознаками.
Другим аргументом на користь цієї гіпотези є те, що ансамблеві підходи —
зокрема Random Forest, Gradient Boosting та CatBoost — здатні краще
узагальнювати закономірності даних і демонструвати підвищену стійкість до
пере- та недонавчання (рис.2.1).
34
Рисунок 2.1 - Візуалізація процесів пере- та недонавчання моделей
Ансамблеві підходи поєднують результати багатьох дерев рішень, що
зменшує ймовірність помилок, спричинених випадковими коливаннями даних. Це
дає підстави очікувати, що ансамблеві моделі будуть ефективнішими в умовах
великого набору особливостей, типовому для наборів даних мережевої безпеки.
Окремо у рамках дослідження розглядається припущення, що
VotingClassifier, який об’єднує результати кількох різних моделей, надасть
найбільш збалансовані прогнози. Механізм голосування дозволяє врахувати різні
“точки зору” алгоритмів — дерев, бустингових моделей, простих класиків — що
створює додатковий рівень стійкості. Важливо, що Voting може працювати як у
“hard”, так і в “soft” режимах, що відкриває можливість використання вагових
коефіцієнтів та адаптації під специфіку даних.
Таким чином, загальна гіпотеза цього дослідження полягає в тому, що
комбінація ансамблевих моделей та методу голосування забезпечить найбільш
точну та надійну класифікацію вторгнень, мінімізує показники помилкових
рішень та продемонструє найвищу стабільність. Подальші експерименти у
третьому розділі дадуть змогу перевірити цю гіпотезу та визначити, чи справді
ансамблеві підходи є оптимальними для побудови високоефективної IDS.
35
2.2 Методи підготовки та опрацювання даних для IDS
Для ефективного навчання моделей машинного навчання у задачах
виявлення мережевих вторгнень критично важливим є баланс між класами у
датасеті. Це означає, що кількість прикладів нормального та аномального трафіку
повинна бути приблизно рівною або, принаймні, компенсованою методами
балансування, такими як oversampling, undersampling або синтетичне генерування
даних. Незбалансовані дані можуть призводити до переваги моделі у передбаченні
більш численних класів та ігнорування рідкісних, але критичних атак, що суттєво
погіршує її ефективність у реальному середовищі.
Не менш важливою є репрезентативність датасету, тобто його здатність
відображати реальні умови мережевої діяльності. Репрезентативні дані повинні
включати типовий трафік, різні конфігурації мереж, типові пакети та сценарії
користувацької взаємодії. Тільки за таких умов модель зможе навчитися
розрізняти нормальні закономірності та потенційні загрози, а її результати на
тестовому наборі будуть коректно узагальнюватися на нових, невиданих даних.
Ще одним важливим аспектом є різноманітність атак, представлених у
датасеті. Модель повинна зустрічати приклади різних типів вторгнень — від DoS
та SYN-флудів до атак на рівні додатків, таких як SQL-ін’єкції чи XSS.
Різноманітність атак дозволяє алгоритмам навчитися виявляти як відомі, так і
потенційно нові, варіативні загрози, забезпечуючи більш надійну та стійку
систему виявлення вторгнень.
Нарешті, важливо забезпечити якість та чистоту даних, що включає
відсутність пропущених значень, дубльованих записів та некоректних ознак.
Репрезентативний, збалансований та різноманітний датасет є основою для
побудови ефективної IDS, а його належна підготовка та перевірка дозволяють
мінімізувати ризики хибних спрацьовувань та підвищити точність моделей у
реальних умовах.
Попередня очищення даних є першим і обов’язковим етапом підготовки
датасету для задач IDS. Вона включає видалення пропущених або некоректних
36
значень, дубльованих записів та аномалій, які можуть спотворювати навчання
моделі. Правильне очищення дозволяє зменшити хибні спрацьовування та
підвищити точність моделі, оскільки алгоритм навчається лише на достовірних та
коректних даних.
Нормалізація та шкалювання ознак дозволяють привести числові дані до
єдиного масштабу, що важливо для алгоритмів, чутливих до величини ознак,
таких як KNN чи градієнтний бустинг. Застосування нормалізації допомагає
зменшити вплив викидів, покращує збіжність алгоритмів оптимізації та дозволяє
порівнювати ознаки між собою на одній шкалі. Це забезпечує більш стабільне та
швидке навчання моделі.
Категоріальні ознаки, які представлені текстовими або номінальними
значеннями, потребують кодування у числовий формат для роботи з
алгоритмами машинного навчання. Популярні методи включають Label Encoding,
One-Hot Encoding та числове кодування. Кодування дозволяє моделі розпізнавати
закономірності у категоріальних даних та враховувати їх під час прогнозування
без втрати інформації.
У комплексі ці техніки підготовки ознак забезпечують, що датасет стає
придатним для навчання моделей машинного навчання. Чисті, нормалізовані та
правильно закодовані дані дозволяють алгоритмам ефективніше виділяти
закономірності, зменшувати хибні спрацьовування та підвищувати точність
прогнозування мережевих атак. Це створює основу для подальшого відбору ознак
та побудови ефективних моделей IDS.
Feature Engineering є ключовим етапом підготовки даних для задач
машинного навчання, оскільки якість ознак прямо впливає на точність та стійкість
моделі. Методологія включає процес створення нових ознак, трансформації
існуючих та виділення найінформативніших для задачі класифікації мережевих
вторгнень. Правильне формування ознак дозволяє алгоритмам точніше виявляти
закономірності та відрізняти нормальний трафік від аномального.
Одним із основних напрямків є відбір ознак, який полягає у визначенні
найбільш значущих ознак для моделі. Це дозволяє зменшити розмірність даних,
37
скоротити час навчання та уникнути перенавчання. Вибір ознак може
здійснюватися за допомогою методів на основі важливості ознак (feature
importance), статистичних тестів або моделей-ансамблів, таких як Random Forest,
які дозволяють оцінити вплив кожної ознаки на прогноз моделі.
Другий напрямок методології – створення нових ознак. Це включає
комбінування або трансформацію існуючих ознак для отримання додаткової
інформації. Наприклад, можна обчислювати сумарні параметри мережевого
з’єднання, різниці між часовими метками пакетів або агреговані статистики по
сеансах трафіку. Нові ознаки дозволяють моделі краще захоплювати приховані
закономірності та поліпшують її здатність до розпізнавання аномалій.
Третій аспект – трансформація ознак, яка включає нормалізацію,
стандартизацію, логарифмування або кодування категоріальних ознак. Це
забезпечує узгодженість даних, зменшує вплив викидів та робить ознаки
придатними для алгоритмів, чутливих до масштабу або розподілу значень. Таким
чином, методологія Feature Engineering формує основу для побудови ефективних
моделей IDS і забезпечує можливість їх подальшої оптимізації та перевірки на
тестових даних.
2.3 Вибір та налаштування алгоритмів машинного навчання
K-Nearest Neighbors (KNN). Алгоритм K-Nearest Neighbors (KNN) – це
один із найпростіших методів класифікації, який відноситься до навчання на
прикладах (instance-based learning). Його основна ідея полягає у пошуку k
найближчих сусідів нового об’єкта серед навчальних даних на основі метрики
відстані. Найпоширенішою метрикою є евклідова відстань, але можуть
використовуватися й інші – Манхеттенська, косинусна або мінімаксна, залежно
від природи даних.
KNN не передбачає явного процесу навчання, оскільки вся інформація
зберігається у навчальному наборі, і класифікація здійснюється під час
38
прогнозування. Це робить алгоритм гнучким, але водночас ресурсозатратним при
великих обсягах даних, оскільки пошук сусідів відбувається в режимі реального
часу. Крім того, KNN чутливий до масштабу ознак: ознаки з великим діапазоном
значень можуть непропорційно впливати на результат, що потребує нормалізації
чи стандартизації даних.
Основна перевага KNN полягає у простоті реалізації та зрозумілості
результатів. Алгоритм не робить жорстких припущень про розподіл даних і може
ефективно працювати в багатовимірних просторах, що робить його придатним
для первинного аналізу мережевого трафіку. KNN також добре підходить для
задач, де класи даних мають чітку кластерну структуру.
Проте важливим є вибір оптимального числа сусідів k. Занадто мале k
робить модель чутливою до шуму, тоді як занадто велике k призводить до
розмиття меж класів і зниження точності. Також KNN потребує ефективних
структур даних для прискорення пошуку сусідів, наприклад, KD-дерев або Ball
Tree, особливо при роботі з великими обсягами даних.
Naive Bayes (NB). Naive Bayes – це ймовірнісний підхід до класифікації,
який базується на теоремі Байєса та припущенні незалежності ознак. Основна ідея
полягає у визначенні ймовірності належності нового об’єкта до кожного класу на
основі значень його ознак. Алгоритм вибирає клас із максимальною
апостеріорною ймовірністю, що дозволяє робити швидкі й ефективні
прогнозування навіть на великих обсягах даних.
Перевагою NB є його простота та швидкість, оскільки він зводиться до
обчислення ймовірностей для кожної ознаки. Алгоритм добре працює в задачах
текстової класифікації, спам-фільтрації, а також у виявленні аномалій у
мережевому трафіку. NB не потребує складного налаштування параметрів і може
бути ефективним навіть при обмежених ресурсах.
Недоліком алгоритму є припущення незалежності ознак, що в реальних
даних часто порушується. Якщо ознаки сильно корелюють між собою,
продуктивність моделі може знижуватися. Проте на практиці NB демонструє
39
стійкість до невеликих порушень цього припущення і часто забезпечує високі
показники точності.
Алгоритм NB особливо корисний на початкових етапах дослідження даних,
коли потрібно швидко оцінити потенціал ознак і вибір методів для більш
складних моделей. Крім того, NB може бути використаний як базовий еталон для
порівняння з більш складними алгоритмами, такими як дерева рішень або
ансамблеві методи.
Decision Tree (Дерева рішень). Decision Tree – це алгоритм класифікації та
регресії, який представляє модель у вигляді дерева, де вузли відповідають умовам
на ознаки, а листки – цільовим класам або числовим значенням. Основна
концепція полягає у поділі даних на підмножини так, щоб максимально розділити
класи на кожному вузлі. Для цього використовуються критерії, такі як
інформаційний приріст, індекс Джині або критерій варіації.
Головною перевагою Decision Tree є його висока інтерпретованість. Кожне
рішення у вузлі дерева можна легко простежити та пояснити, що робить алгоритм
придатним для аналітики та прийняття рішень у сфері безпеки мережі. Алгоритм
може обробляти як числові, так і категоріальні ознаки, що робить його
універсальним у застосуванні.
Дерева рішень можуть схилятися до перенавчання, особливо якщо дерево
стає занадто глибоким. Щоб уникнути цього, застосовують регуляризацію:
обмеження глибини дерева, мінімальна кількість прикладів у вузлі, або
мінімальна інформаційна вигода для поділу. Такі параметри дозволяють
контролювати баланс між точністю на навчальних даних і здатністю до
узагальнення на нових даних.
Decision Tree також є основою для більш складних ансамблевих методів,
таких як Random Forest та Gradient Boosting. Завдяки цим підходам можна
підвищити точність і стійкість моделей, використовуючи множинні дерева для
прийняття більш надійних рішень. Саме тому розуміння методології роботи дерев
є ключовим для побудови ефективних моделей виявлення мережевих вторгнень.
40
Random Forest (RF). Random Forest – це ансамблевий метод, що
складається з багатьох дерев рішень, де кожне дерево тренується на випадковій
підвибірці навчальних даних з повторенням (bootstrap). Основна ідея полягає у
поєднанні прогнозів множини слабких моделей (окремих дерев) для отримання
більш стійкого та точного результату.
Кожне дерево у Random Forest розділяє дані на підмножини за різними
ознаками, обраними випадково для кожного вузла, що дозволяє зменшити
кореляцію між деревами. Потім результати всіх дерев агрегуються, найчастіше за
принципом більшості голосів для задач класифікації або середнього для регресії.
Це підвищує точність і стійкість моделі порівняно з одиночним деревом рішень.
Random Forest добре працює з великими наборами даних і числовими, і
категоріальними ознаками. Модель також може оцінювати важливість ознак, що
допомагає у Feature Engineering та відборі головних ознак. Ця властивість
дозволяє робити інтерпретацію результатів і краще розуміти поведінку моделі.
Недоліком є більша обчислювальна складність порівняно з окремим деревом,
особливо при великій кількості дерев і ознак. Однак за рахунок паралельної
побудови дерев та сучасних обчислювальних ресурсів Random Forest залишається
практичним для задач виявлення аномалій і мережевих атак.
XGBoost (Extreme Gradient Boosting). XGBoost – це алгоритм градієнтного
бустингу, що використовує ансамбль слабких моделей, зазвичай дерев рішень,
для поступового покращення прогнозу шляхом зменшення залишкових помилок
попередніх дерев. Основна мета – мінімізувати функцію втрат за допомогою
градієнтного спуску для кожного наступного дерева.
Однією з ключових переваг XGBoost є регуляризація, яка дозволяє
контролювати складність дерев і запобігати перенавчанню. Алгоритм також
оптимізований для швидкої роботи та обробки великих обсягів даних, що робить
його ефективним для задач аналізу мережевого трафіку з численними ознаками та
великими наборами даних.
XGBoost автоматично обробляє пропущені значення та може працювати як
з числовими, так і з категоріальними ознаками (після відповідного кодування).
41
Модель забезпечує високу точність та стійкість, завдяки чому її широко
застосовують для задач класифікації аномалій та виявлення вторгнень у мережах.
Недоліком XGBoost є необхідність налаштування великої кількості
гіперпараметрів (кількість дерев, глибина дерев, швидкість навчання,
регуляризаційні параметри). Проте за допомогою методів оптимізації, таких як
Optuna або GridSearchCV, можна швидко знайти оптимальні параметри і
забезпечити високу продуктивність моделі.
CatBoost. CatBoost – це ще один алгоритм градієнтного бустингу, який
спеціально оптимізований для роботи з категоріальними ознаками. Він
автоматично обробляє категоріальні ознаки без необхідності їх явного числового
кодування, що спрощує підготовку даних та знижує ризик втрати інформації.
CatBoost використовує спеціальну технологію порядку обробки (ordered
boosting), яка зменшує упередженість при побудові дерев і допомагає уникнути
перенавчання. Це забезпечує стійкість моделі та високу точність навіть на
складних задачах з великими наборами ознак.
Алгоритм ефективний для роботи з великими та високорозмірними даними,
швидко навчається та має можливості для обчислення важливості ознак. CatBoost
часто показує конкурентну продуктивність у порівнянні з XGBoost та LightGBM,
особливо в задачах класифікації із змішаними типами ознак.
Одним із недоліків є те, що CatBoost може бути більш ресурсозатратним
при дуже великих наборах даних, хоча його ефективність у багатьох практичних
сценаріях, включаючи виявлення мережевих вторгнень, робить його
перспективним вибором. Використання CatBoost дозволяє швидко створювати
надійні моделі з мінімальними витратами на підготовку даних.
Ось детальне пояснення суті методу голосування (Voting) для машинного
навчання:
Метод ансамблевого голосування (Voting). Метод голосування – це підхід
в машинному навчанні, який дозволяє об’єднати кілька різних моделей
(класифікаторів) для прийняття спільного рішення. Основна ідея полягає в тому,
що комбінація кількох моделей може дати точніший і стабільніший результат, ніж
42
будь-яка окрема модель окремо. Такий підхід зменшує ризик помилок окремого
класифікатора та підвищує стійкість системи до варіацій даних.
Існують два основні типи голосування: "hard" та "soft". У hard voting кожна
модель подає свій голос (класифікаційне передбачення), і кінцевий результат
визначається більшістю голосів. Наприклад, якщо три моделі прогнозують класи
A, A та B, остаточним прогнозом буде клас A. У soft voting моделі повертають
ймовірності належності об’єкта до кожного класу, і остаточне рішення
визначається сумою або середнім цих ймовірностей. Soft voting зазвичай працює
точніше, оскільки враховує впевненість моделей у своїх прогнозах.
Метод голосування також дозволяє зважувати моделі, надаючи більшої
ваги тим класифікаторам, які демонструють кращу точність на навчальних або
валідаційних даних. Це робить ансамбль більш гнучким і здатним краще
узагальнювати дані. Наприклад, у задачах виявлення мережевих вторгнень вагові
коефіцієнти можна встановлювати залежно від ефективності моделей у
попередньому тестуванні, підвищуючи точність передбачення аномалій.
Ансамблеве голосування є особливо ефективним у складних задачах, де
різні моделі по-різному реагують на різні типи ознак або аномалій. Воно зменшує
вплив overfitting окремих моделей, підвищує стійкість до шуму та дозволяє
отримати більш збалансовані показники точності, recall та F1-score. Завдяки
цьому метод голосування часто використовується у сучасних IDS, фінансових та
медичних системах, де критично важливо мінімізувати хибні спрацьовування.
Наведемо модельний приклад роботи методу голосування (Voting) на задачі
класифікації.
Припустимо, є три класифікатори, які прогнозують клас для одного об’єкта
(A або B):
Класифікатор Прогноз
KNN A
Random Forest A
Decision Tree B
43
Hard Voting: модель об’єднує голоси всіх класифікаторів і обирає клас, який
отримав більшість.
• Голоси: A (2), B (1) → результат: A
Soft Voting: моделі повертають ймовірності належності об’єкта до кожного
класу:
Класифікатор P(A) P(B)
KNN 0.7 0.3
Random Forest 0.6 0.4
Decision Tree 0.4 0.6
Модель підсумовує або усереднює ймовірності:
• P(A) = 0.7 + 0.6 + 0.4 = 1.7
• P(B) = 0.3 + 0.4 + 0.6 = 1.3
Остаточне передбачення: A, бо P(A) > P(B)
Таким чином, Soft voting враховує впевненість кожної моделі, тоді як hard
voting дивиться лише на клас. У реальних задачах, особливо коли класифікатори
мають різну точність, soft voting зазвичай дає кращі результати.
2.4 Оптимізація гіперпараметрів та вибір метрик оцінювання
Розглянемо основні підходи щодо вибору гіперпараметрів, які є
надзвичайно важливими при налаштуванні моделі.
Ось розгорнуте пояснення для кожного підходу з чотирьох абзаців:
Grid Search. Grid Search — це методологія оптимізації гіперпараметрів
моделі шляхом повного перебору всіх можливих комбінацій заданих значень
параметрів. Користувач визначає сітку (grid) значень гіперпараметрів, і алгоритм
перевіряє всі комбінації, оцінюючи модель за обраною метрикою (наприклад, f1,
accuracy) на валідаційних даних.
Цей підхід дозволяє точно знайти оптимальні гіперпараметри, оскільки
перевіряються всі задані варіанти. Однак його основний недолік — висока
44
обчислювальна складність, особливо якщо сітка велика або модель потребує
багато часу на навчання.
Grid Search добре підходить для моделей із невеликою кількістю
гіперпараметрів або коли є апаратні ресурси для паралельного навчання моделей.
Він забезпечує надійність у пошуку оптимальних параметрів, але не завжди
ефективний для дуже великих наборів параметрів.
У задачах IDS Grid Search можна застосовувати для оптимізації моделей на
навчальній вибірці, наприклад, для налаштування дерева рішень (max_depth,
max_features) або кількості сусідів у KNN. Він допомагає отримати стабільні та
відтворювані результати, особливо для базових експериментів.
Random Search. Random Search — це метод оптимізації, який випадковим
чином вибирає комбінації гіперпараметрів із заданого діапазону. На відміну від
Grid Search, не перевіряються всі варіанти, а лише певна кількість випадкових
комбінацій.
Основна перевага Random Search — зменшення обчислювальних витрат при
високій ймовірності знаходження хороших гіперпараметрів. Дослідження
показують, що випадковий пошук може бути ефективнішим за Grid Search у
випадках, коли лише деякі параметри сильно впливають на результат моделі.
Random Search дозволяє швидко отримати достатньо оптимальні параметри
для моделей з великою кількістю гіперпараметрів. Він також забезпечує
гнучкість: можна задати кількість ітерацій, щоб балансувати між точністю та
часом обчислень.
У контексті IDS Random Search зручно застосовувати для складних
моделей, таких як Random Forest або XGBoost, де повний перебір всіх
гіперпараметрів зайняв би надто багато часу. Він дозволяє швидко протестувати
різні конфігурації моделей для подальшого відбору найкращих.
Optuna. Optuna — це сучасна бібліотека для автоматизованої оптимізації
гіперпараметрів з використанням байєсових методів та адаптивного вибору
комбінацій. На відміну від Grid та Random Search, Optuna "навчається" на
45
попередніх спробах і вибирає наступні параметри з більшою ймовірністю, якщо
вони можуть покращити метрику (рис.2.2).
Рисунок 2.2 - Принцип функціонування Optuna для автоматизованого
підбору параметрів
Основна перевага Optuna — ефективність та швидкість пошуку
оптимальних гіперпараметрів навіть для великих та складних моделей. Він
автоматично ранжує комбінації та може зупиняти невдалі спроби, економлячи час
та ресурси.
Optuna дозволяє гнучко задавати простори параметрів (цілі числа, дійсні
числа, категорії), а також інтегруватися з різними бібліотеками машинного
навчання (scikit-learn, XGBoost, LightGBM). Це робить її особливо зручною для
експериментів із багатьма моделями одночасно.
У задачах IDS Optuna є потужним інструментом для тонкого налаштування
ансамблевих моделей або градієнтних бустингових алгоритмів. Вона дозволяє
отримати високу продуктивність моделі при мінімальних обчислювальних
витратах, що особливо важливо при роботі з великими мережевими датасетами.
Порівняльний аналіз автоматизованих методів підбору гіперпараметрів
наведений в табл.2.1.
46
Таблиця 2.1 - Порівняльний аналіз автоматизованих методів підбору
гіперпараметрів
Метод
оптимізації Пояснення Переваги Недоліки Рекомендоване
застосування
Точний пошук Висока
Повний перебір усіх оптимальних обчислювальна Для моделей з
Grid Search комбінацій заданих параметрів; складність; невеликою кількістю
гіперпараметрів відтворювані неефективний для гіперпараметрів; базові
результати великих наборів експерименти
параметрів
Менше витрат часу;
швидкий пошук Не гарантує
Випадковий вибір "достатньо хороших" знаходження Для складних моделей із
Random комбінацій параметрів; глобального багатьма параметрами,
Search параметрів із ефективний при максимуму; коли Grid Search занадто
заданого діапазону великій кількості результат залежить дорогий
параметрів від кількості ітерацій
Адаптивний пошук Висока ефективність;
економія часу; Потребує інтеграції з Для ансамблевих
із байєсовою можливість ранньої кодом та моделей та великих
Optuna оптимізацією та налаштувань; датасетів; тонке
навчанням на зупинки невдалих
спроб; гнучкість у складніший для налаштування моделей з
попередніх спробах багатьма
виборі параметрів початківців гіперпараметрами
2.5. Показники якості моделі машинного навчання
У сфері машинного навчання для оцінки ефективності моделей
використовують різні метрики, що дозволяють визначити, наскільки добре модель
працює на навчальних та тестових даних. Вибір конкретних показників залежить
від типу задачі (класифікація, регресія тощо) та характеристик даних. Для задач
класифікації найпоширенішими є наступні метрики:
• точність (Accuracy): відсоток правильних передбачень моделі серед усіх
прикладів;
• прецизійність (Precision): частка об’єктів, які модель правильно визначила
як позитивні, серед усіх об’єктів, віднесених до позитивних;
• повнота (Recall): частка позитивних об’єктів, які модель правильно
ідентифікувала серед усіх наявних позитивних об’єктів;
• f1-міра (F1-Score): гармонійне середнє між точністю та повнотою, що
дозволяє збалансувати обидва показники;
47
• AUC-ROC: площа під кривою ROC, яка оцінює якість моделі при різних
порогах відсікання.
Графічне та математичне представлення цих термінів наведено на рис. 2.3,
де
TP означає істинні позитивні результати,
TN — істинні негативні,
FP — хибні позитивні,
FN — хибні негативні результати.
Рисунок 2.3 - Основні показники ефективності в машинному навчанні
Accuracy (точність) є однією з ключових метрик для оцінки ефективності
класифікаційних моделей у машинному навчанні. Вона показує, який відсоток
прогнозів моделі є правильними серед усіх зроблених прогнозів, і обчислюється
за формулою:
Наведемо модельний приклад розрахунку. Якщо є класифікаційна модель,
яка була випробувана на 100 об'єктах, і вона правильно класифікувала 85 з них, то
точність моделі буде:
Accuracy=85/100=0.85.
48
Отже, точність в цьому випадку складає 85%. Метрика дуже важлива для
проведення загальної оцінки продуктивності моделі. Разом з тим у випадку
дисбалансу класів потрібно використовувати інші метрики, зокрема такі як
точність (precision), повнота (recall) і F1-міра.
Precision (точність прогнозів) показує, яку частку об’єктів, передбачених
як позитивні, модель визначила правильно:
Наведемо модельний приклад розрахунку. Нехай при класифікації 100
об'єктів модель визначила 90 об'єктів як позитивні. З цих 90 позитивних об'єктів
85 були правильно визначені моделлю. Тоді точність буде:
Precision=85/90=0.944.
Recall (повнота) відображає, яку частку справжніх позитивних об’єктів
модель змогла правильно передбачити:
.
Наведемо модельний приклад розрахунку. Нехай при класифікації 100
об'єктів модель визначила 90 об'єктів як позитивні. Тоді загальна кількість
фактичних позитивних об'єктів у цьому наборі даних становить 95. З цих 95
фактичних позитивних об'єктів модель визначила лише 85. Тоді повнота буде:
Recall=85/95=0.89.
F1-міра є гармонійним середнім між Precision і Recall і дозволяє
збалансовано оцінити ефективність моделі, особливо при дисбалансі класів:
.
Графічне уявлення про наведені характеристики можна візуалізувати на
прикладі рис.2.4.
49
Рисунок 2.4 - Демонстрація основних метрик ефективності моделей
Формула для метрики f1 поєднує точність і повноту в одному числовому
показнику, що відображає загальну якість класифікації моделі. Варто зазначити,
що F1-міра має високе значення лише тоді, коли одночасно високі як точність, так
і повнота, і прагне до нуля, якщо хоча б одна з цих метрик низька. Таким чином,
вона враховує баланс між точністю та повнотою.
2.6 Висновки
У другому розділі було обґрунтовано вибір стратегії дослідження та
методів, які забезпечують ефективну розробку системи виявлення аномалій у
мережевому трафіку. Акцент було зроблено на комплексному підході, що
передбачає послідовне застосування підготовки даних, вибору алгоритмів
машинного навчання та оцінки їх продуктивності. Такий підхід дозволяє не лише
побудувати працездатну модель, але й забезпечити її адаптивність до специфіки
аналізованих даних.
Особливу увагу приділено методам підготовки та опрацювання даних для
IDS. Було виконано очищення та нормалізацію даних, а також трансформацію
50
ознак для підвищення якості навчання моделей. Використання таких методів
підготовки забезпечує зменшення шуму та підвищує точність класифікації, що є
критично важливим для систем виявлення аномалій, де навіть незначні похибки
можуть впливати на безпеку мережі.
У рамках дослідження було обрано та налаштовано ряд алгоритмів
машинного навчання: KNN, Naive Bayes, Decision Tree, Random Forest, XGBoost,
CatBoost, а також ансамблевий метод голосування (Voting). Кожен з алгоритмів
був обраний з урахуванням специфіки задачі IDS, можливостей роботи з різними
типами даних та потенціалу підвищення точності класифікації. Застосування
різних моделей дозволяє оцінити їх продуктивність у порівнянні та визначити
оптимальні підходи для конкретного сценарію.
Важливим етапом дослідження є оптимізація гіперпараметрів та вибір
показників для оцінки ефективності моделей. Використання методів оптимізації,
таких як Grid Search, Random Search та Optuna, дозволяє підвищити точність
моделей та уникнути перенавчання. Одночасно підбір адекватних метрик
(Accuracy, Precision, Recall, F1-міра) забезпечує комплексну оцінку
продуктивності моделей, що особливо важливо при дисбалансі класів або
наявності аномальних подій у даних.
Таким чином, у другому розділі було показано, що комплексне
застосування методів підготовки даних, налаштування та оптимізації алгоритмів
машинного навчання дозволяє підвищити якість роботи системи виявлення
аномалій. Використання різних підходів та метрик оцінювання забезпечує
збалансовану і надійну оцінку продуктивності моделей. Отримані результати
створюють міцну основу для подальшого розвитку та впровадження ефективних
систем IDS на основі машинного навчання.
51
3 РОЗРОБЛЕННЯ ТА ДОСЛІДЖЕННЯ МОДЕЛЕЙ ВИЯВЛЕННЯ
ПІДОЗРІЛОЇ АКТИВНОСТІ В МЕРЕЖЕВОМУ ТРАФІКУ
3.1 Підготовка даних для побудови моделі машинного навчання
Попередня обробка даних у задачах виявлення мережевих вторгнень
(Intrusion Detection) є критичним етапом, що визначає подальшу ефективність
моделей машинного навчання. Дані такого типу мають специфічні властивості,
значну кількість параметрів, різну природу ознак та часто містять шум, тому
потребують ретельної підготовки. Процес попередньої обробки складається з
низки взаємопов’язаних процедур, кожна з яких впливає на якість моделі та
достовірність отриманих результатів.
Першим кроком є формування вихідного масиву даних. Джерелами можуть
виступати журнальні файли, мережеві сенсори, системи моніторингу або
спеціалізовані набори, створені для тестування алгоритмів виявлення аномалій.
Для формування датасетів, призначених для дослідження мережевих вторгнень,
зазвичай використовуються спеціалізовані джерела, що забезпечують
реалістичність та репрезентативність мережевого трафіку. До таких джерел
належать відкриті дослідницькі платформи та репозиториї, зокрема KDD Cup,
NSL-KDD, CIC-IDS (CICIDS2017, CICIDS2018), а також набори від UNSW-NB15,
DARPA Intrusion Detection Evaluation Data Sets, CAIDA та MAWI Working Group
Traffic Archive. Ці ресурси містять як «нормальний» трафік, так і різноманітні
типи змодельованих або зафіксованих атак, що робить їх стандартом у наукових
дослідженнях та практиці аналізу вторгнень
Після отримання даних виконується очищення даних — усунення
дублікатів, корекція помилок, заповнення пропусків, виявлення та обробка
аномальних значень, що не несуть корисної інформації для моделі.
Наступним етапом є відбір ознак. Частина характеристик може бути
надлишковою, слабо інформативною або такою, що створює шум у навчанні.
52
Відбір ознак є ключовим етапом побудови ефективних моделей машинного
навчання, оскільки дозволяє зменшити розмірність даних, підвищити точність
прогнозування та скоротити обчислювальні витрати. Серед найпоширеніших
технік застосовуються методи фільтрації (наприклад, кореляційний аналіз або
статистичні тести), методи обгортки, що оцінюють важливість ознак
безпосередньо через роботу моделі (RFE — Recursive Feature Elimination), а також
вбудовані методи, характерні для алгоритмів, які самостійно визначають
значущість ознак, як-от дерева рішень, Random Forest або моделі з регуляризацією
(Lasso, Ridge). Такі підходи дозволяють відібрати найбільш інформативні
характеристики мережевого трафіку та значно підвищити якість виявлення
аномалій чи вторгнень. Видалення таких ознак зменшує розмірність простору та
підвищує ефективність алгоритмів.
Для коректної роботи моделей, чутливих до масштабів параметрів,
здійснюється нормалізація або стандартизація числових даних. Нормалізація
та стандартизація числових даних є важливими кроками у попередній підготовці
датасетів для задач машинного навчання, оскільки багато алгоритмів чутливі до
масштабу ознак. Нормалізація приводить значення до фіксованого діапазону,
зазвичай [0-1], тоді як стандартизація перетворює дані так, щоб вони мали
нульове середнє та одиничне стандартне відхилення. Це забезпечує коректність
обчислення відстаней, пришвидшує збіжність алгоритмів оптимізації та запобігає
ситуації, коли окремі ознаки домінують над іншими через більший числовий
діапазон. У контексті аналізу мережевого трафіку такі перетворення особливо
корисні, оскільки значення різних характеристик (наприклад, кількість байтів,
тривалість з’єднання, число помилок) можуть суттєво відрізнятися за шкалою.
Перетворення категоріальних ознак у числовий формат є необхідним
етапом підготовки даних для машинного навчання, оскільки більшість алгоритмів
працюють виключно з числовими значеннями. Серед основних технік
використовують Label Encoding, який присвоює кожній категорії унікальне ціле
число, та One-Hot Encoding, що створює бінарні змінні для кожного можливого
значення категорії. Крім того, застосовують Target Encoding або Frequency
53
Encoding, які враховують зв’язок категорії з цільовою змінною або частотність її
появи. Вибір методу залежить від природи даних та моделі: One-Hot Encoding
підходить для алгоритмів, чутливих до порядку чисел, тоді як Label Encoding
ефективніший для деревоподібних моделей. Ці перетворення дозволяють
інтегрувати інформацію з категоріальних ознак у числові алгоритми та
покращують точність класифікації.
Поділ даних на навчальну та тестову вибірки є базовою технікою
підготовки датасетів для оцінки моделей машинного навчання. Навчальна вибірка
використовується для побудови та налаштування моделі, а тестова — для
перевірки її здатності узагальнювати знання на нових, невідомих даних. Зазвичай
частка даних розподіляється у пропорції 70–80 % на навчання та 20–30 % на
тестування, проте співвідношення може змінюватися залежно від обсягу та
характеру даних. Такий поділ дозволяє об’єктивно оцінити ефективність моделі та
уникнути переобучення, забезпечуючи більш надійну та стабільну класифікацію,
зокрема у задачах виявлення мережевих аномалій.
Окрему увагу приділяють балансуванню класів, оскільки у наборах
Intrusion Detection кількість нормальних і аномальних записів часто істотно
відрізняється. Для подолання цієї проблеми використовують методи збільшення
вибірки (oversampling), зменшення вибірки (undersampling) або алгоритмічні
підходи типу SMOTE. За потреби проводять додаткові процедури — видалення
викидів, фільтрацію за часовими інтервалами, генерацію нових ознак чи
попередню обробку текстових полів.
Коректно виконана попередня підготовка є основою для побудови надійної
та стабільної моделі машинного навчання, оскільки дозволяє виключити вплив
некоректних або зашумлених даних і забезпечити концентрацію моделі на
релевантних закономірностях. Недостатня увага до цього етапу може призвести
до отримання викривлених результатів, зниження точності та загальної якості
моделей.
У межах цього дослідження попередню обробку проілюстровано на
конкретному наборі даних, сформованому для задач виявлення вторгнень. Він
54
містить широке різноманіття атак, змодельованих у військовому мережевому
середовищі для участі у змаганнях на платформі Kaggle. Такий датасет базується
на даних TCP/IP мережі, отриманих шляхом імітації типової локальної
інфраструктури зі сценаріями різних мережевих атак.
У датасеті кожен запис відповідає окремому мережевому з’єднанню —
послідовності TCP-пакетів, що виникають між вихідною та цільовою IP-адресою
у визначений проміжок часу згідно заданого протоколу. Протокол TCP
(Transmission Control Protocol) належить до транспортного рівня моделі OSI та
забезпечує впорядковану та надійну передачу даних. Кожен TCP-сегмент містить
службову та корисну інформацію: номери портів, послідовні номери,
підтвердження, payload тощо, що дозволяє контролювати доставку та відновлення
даних у разі втрат або помилок.
Усі з’єднання в датасеті класифіковані як нормальні або такі, що належать
до певного типу атаки. Кожен запис має близько 100 байт та описується 41
характеристикою: трьома категоріальними та тридцятьма вісьмома числовими
ознаками. На основі цих параметрів формується цільова змінна — «class», яка
визначає тип трафіку (нормальний чи аномальний).
Дані, обрані для дослідження, містять 25 192 записи із 41 ознакою та
поділені на навчальну і тестову частини («Train_data.csv» та «Test_data.csv»).
Серед ключових характеристик — «protocol_type», «service», «flag», «src_bytes» та
інші параметри, аналіз яких дозволяє здійснити формування моделі для задач
класифікації аномальної мережевої активності.
На рис.3.1. наведено фрагмент даних, які зчитуються з відповідних файлів
для формування тренувального та тестового наборів даних.
55
Рисунок 3.1 - Фрагмент даних при зчитуванні з файла для проведення аналізу
Для аналізу представленого датасета скористаємося командою .info()
(рис.3.2.), де можна побачити ознаки та їх тип.
Рисунок 3.2 - Перелік ознак датасета для проведення їх аналізу
56
Представлений датасет не вимагає додаткових процедур очищення щодо
відсутніх або пропущених значень, що підтверджується результатами
попереднього аналізу даних. Аналогічно, дублікати записів у наборі відсутні,
тому етап їх видалення не є необхідним (рис. 3.3).
Рисунок 3.3 - Аналіз даних для виявлення пропущених значень та дублікатів
Розглянутий датасет є відносно збалансованим, оскільки ознака «class»
містить майже рівну кількість записів з нормальним трафіком (13 449) та
аномальним (11 743). Тому додаткові заходи щодо балансування класів у цьому
наборі даних не потрібні (рис. 3.4).
Рисунок 3.4 - Аналіз балансування класів в досліджуваному датасеті
57
Кодування категоріальних ознак є ключовим етапом підготовки даних для
машинного навчання, оскільки більшість алгоритмів, таких як лінійна регресія
або дерева рішень, можуть обробляти лише числові значення. Перетворення
категоріальних ознак у числовий формат дозволяє моделям виявляти приховані
закономірності та взаємозв’язки, які були б недоступні при використанні
початкових текстових або номінальних даних.
Існує кілька підходів до кодування, зокрема One-Hot Encoding, Label
Encoding та кількісне кодування, а вибір конкретного методу залежить від типу
ознаки, задачі та обраного алгоритму. Таке перетворення робить категоріальні
дані придатними для аналізу та моделювання. Наприклад, у розглянутому датасеті
ознака «protocol_type» має 3 унікальні значення, «service» — 66, а «flag» — 11
(рис. 3.5).
Рисунок 3.5 - Аналіз категоріальних ознак
Наведемо представлення розподілу категоріальних ознак для
«protocol_type», «service» та «flag» (рис.3.6.).
58
Рисунок 3.6 - Візуальне представлення співвідношення категоріальних
ознак досліджуваного датасета
На рис.3.7. проілюстровано застосування методу Label Encoding, де
категоріальні ознаки («protocol type», «service» та ін.) перетворилися на числові
значення.
59
Рисунок 3.7 - Виконання кодування категоріальних ознак при застосуванні
Категоріальне кодування у наведеному прикладі реалізовано за допомогою
Label Encoding, який присвоює кожному унікальному значенню в стовпці
числовий код. Функція le(df) проходить по всіх стовпцях датасету та перевіряє
тип даних object, що вказує на наявність категоріальної ознаки. Для кожного
такого стовпця створюється об’єкт LabelEncoder(), після чого виконується метод
fit_transform(), який спочатку аналізує всі унікальні категорії, а потім замінює їх
на числові значення, починаючи з 0. Таким чином, кожна категорія отримує
унікальний числовий код, і дані стають придатними для алгоритмів машинного
навчання, які не можуть обробляти текстові або номінальні значення.
Ця операція виконана як для навчальної, так і для тестової вибірки (train і
test), що забезпечує єдину систему кодування для обох наборів даних. Важливо
відзначити, що Label Encoding зручний для алгоритмів, які не чутливі до порядку
чисел, наприклад, дерева рішень, проте для моделей, чутливих до числового
порядку (лінійні моделі, KNN), такий підхід може внести певні спотворення.
Незважаючи на це, у цьому випадку метод дозволяє ефективно перевести всі
категоріальні ознаки у числовий формат та забезпечити коректну роботу моделі
машинного навчання.
60
У наведеному прикладі видаляється стовпець num_outbound_cmds з обох
наборів даних (train і test). Це робиться з кількох причин, зокрема відсутність
корисної інформації для моделі. У багатьох датасетах для виявлення мережевих
вторгнень стовпець num_outbound_cmds містить лише нулі або значення, які не
змінюються між зразками, тобто не несуть диференціаційної інформації. Такі
ознаки не впливають на навчання моделі, але збільшують розмірність та
обчислювальне навантаження.
Непотрібні або константні ознаки можуть ускладнювати роботу алгоритмів,
особливо тих, що чутливі до кореляцій та масштабів ознак. Видалення таких
колонок покращує ефективність навчання та робить модель більш стійкою.
Нормалізація та масштабування даних у машинному навчанні є
важливими для коректної обробки даних та підвищення продуктивності моделей.
Ці процедури забезпечують стабільність алгоритмів, зменшуючи їхню чутливість
до різниці в масштабах ознак. Без відповідного приведення даних до єдиного
масштабу деякі алгоритми можуть некоректно оцінювати значимість ознак, що
негативно впливає на точність моделей (рис. 3.8).
Рисунок 3.8 - Результат нормалізації та масштабування даних
Крім цього, нормалізація даних сприяє прискоренню збіжності алгоритмів,
особливо методів оптимізації, таких як градієнтний спуск, що дозволяє швидше
61
навчати моделі. Вона також зменшує вплив викидів або надмірних значень,
оскільки після приведення даних до єдиного масштабу їхній вплив стає менш
помітним. Нормалізація полегшує порівняння ознак, оскільки всі вони
опиняються в одному масштабі, що особливо важливо для алгоритмів, які
оцінюють відстані чи схожість між даними, таких як k-найближчі сусіди.
Таким чином, нормалізація та масштабування є ключовими кроками
підготовки даних, які значно підвищують точність, стабільність та ефективність
моделей машинного навчання. Реалізація цих процедур представлена на рис. 3.9.
Рисунок 3.9 - Реалізація процедури нормалізації даних
Отже, після проведеної підготовки даних можна переходити до наступного
етапу — інженерії ознак та відбору найінформативніших характеристик, що
дозволить зменшити розмірність моделі та підвищити її ефективність.
3.2 Проведення аналізу даних та інженерії ознак
Інженерія ознак (Feature Engineering) — це процес створення, вибору та
трансформації ознак з даних з метою підвищення якості моделей машинного
62
навчання. Це один із ключових етапів розробки моделей, оскільки від якості ознак
залежить здатність алгоритму виявляти закономірності та ефективно
узагальнювати дані.
Інженерія ознак включає кілька основних завдань:
• вибір ознак — відбір найінформативніших змінних для побудови моделі,
що може включати видалення малозначущих ознак або вибір підмножини
на основі їхньої важливості;
• створення нових ознак — генерація додаткових характеристик на основі
існуючих даних або зовнішніх джерел, наприклад, статистичних підсумків,
різниць між показниками чи категоріальних змінних;
• трансформація ознак — застосування логарифмування, нормалізації,
стандартизації або інших методів для покращення розподілу даних та
зменшення впливу викидів.
Для виділення головних ознак у даному дослідженні застосовано
класифікатор RandomForestClassifier. Random Forest — це ансамбль дерев рішень,
який використовує метод багатократного бутстрепу та випадковий підбір ознак
для підвищення точності моделі та оцінки важливості ознак. Кожне дерево рішень
будується на випадковій вибірці даних, а важливість ознаки визначається
частотою її використання у розгалуженнях дерев для прийняття рішень.
Важливість ознак, визначена Random Forest, дозволяє ранжувати ознаки та
відбирати найінформативніші для подальшого навчання моделей, підвищуючи
їхню ефективність та точність. На рис. 3.10 наведено приклад коду, який
демонструє процес виділення та ранжування головних ознак датасету.
63
Рисунок 3.10 - Результат виділення головних проранжованих ознак при
використанні класифікатора Random Forest
Після виділення ключових ознак тренувальна частина датасету була
розділена на підмножини train і test для навчання моделі та оцінки її валідності.
Валідність моделі (Model Validity) визначає, наскільки добре побудована
модель здатна узагальнювати свої прогнози на нових даних і включає такі
аспекти, як точність, стабільність та здатність до застосування у різних ситуаціях.
Точність (Accuracy) — це відсоток правильно класифікованих об’єктів
серед усіх прикладів у вибірці. Точність є базовою метрикою ефективності
класифікаційних моделей і показує загальну правильність прогнозів. Проте вона
може бути недостатньо інформативною на розбалансованих даних, де один клас
64
переважає. Використовується для оцінки ефективності моделей у задачах
класифікації, де класи приблизно збалансовані, наприклад, для виявлення
нормального та аномального мережевого трафіку в задачах IDS.
Стійкість (Robustness) — це здатність моделі зберігати ефективність при
наявності шуму, викидів або змін у вхідних даних. Модель є стійкою, якщо її
прогнози не сильно змінюються при незначних варіаціях даних. Висока стійкість
забезпечує надійність результатів у реальних умовах, де дані можуть бути
неповними або неточними. Особливо важлива у задачах обробки даних з
мережевих систем, фінансових прогнозах, медичних діагностиках, де дані можуть
бути шумними або частково помилковими.
Крос-валідація (Cross-Validation) — це метод оцінки якості моделі шляхом
розбиття даних на кілька підмножин (folds) та багаторазового навчання і
тестування на різних комбінаціях підмножин. Дозволяє більш надійно оцінити
ефективність моделі та уникнути перенавчання (overfitting), оскільки тестування
проводиться на незалежних частинах даних. Найпопулярніший варіант — k-fold
cross-validation. Використовується для вибору моделі, підбору гіперпараметрів та
оцінки продуктивності алгоритмів на обмежених наборах даних.
Узагальненість (Generalization) — це здатність моделі правильно
прогнозувати нові, раніше невідомі дані, а не лише навчальні приклади. Висока
здатність до узагальнення свідчить про те, що модель не перенавчана і здатна
робити точні передбачення на тестових даних. Погане узагальнення зазвичай
проявляється у випадку overfitting або недонавчання. Є ключовою
характеристикою для всіх прикладних задач машинного навчання, зокрема
виявлення аномалій, прогнозування, класифікація, рекомендаційні системи, де
важливо отримати коректні прогнози на нових даних.
65
3.3 Аналіз моделей машинного навчання виявлення мережевих
вторгнень
У дослідженні застосовано кілька класифікаторів для оцінки їхньої
ефективності та визначення придатності для задачі виявлення мережевих
вторгнень, а також для прогнозування на основі запропонованої моделі
машинного навчання.
Одним із найбільш поширених і простих у використанні класифікаторів є
KNN (K-Nearest Neighbors), який розглянуто в п.2.3. Цей алгоритм є базовим і
легким для розуміння. Під час навчання модель зберігає навчальний набір даних
разом із ознаками та відповідними класами (для класифікації) або значеннями
(для регресії).
Для класифікації нового прикладу KNN визначає k найближчих сусідів у
навчальному наборі за певною метрикою відстані, зазвичай яка є єевклідовою.
Параметр k є гіперпараметром, від вибору якого значною мірою залежить
точність моделі.
Після визначення k найближчих сусідів алгоритм визначає, який клас або
значення найбільш часто зустрічається серед цих сусідів, і призначає його новій
точці даних. Основна концепція KNN полягає в тому, що схожі приклади, як
правило, належать до одного класу або мають близькі значення.
KNN простий у реалізації та може ефективно застосовуватися для різних
задач, однак важливими аспектами залишаються правильний вибір k, метрики
відстані та оптимізація для великих наборів даних.
На рис.3.11 показаний приклад коду реалізації KNN, де гіперпараметр k
варіювався від 2 до 16. Найкраща точність (accuracy), рівна 0.98 для навчальної
та тестової вибірки, була досягнута при k = 11, що свідчить про високу
ефективність моделі.
66
Рисунок 3.11 - Реалізація методу KNN для побудови моделі аналізу даних
Проаналізуємо інший показник якості f1-score — це гармонійне середнє між
precision (точністю передбачень) та recall (повнотою передбачень), що добре
підходить для задач із незбалансованими класами. Вона враховує як помилки
типу false positives, так і false negatives, надаючи більш збалансовану оцінку ніж
просто точність:
Параметр average='macro' означає, що f1-score обчислюється для кожного
класу окремо і потім усереднюється без урахування кількості прикладів у
кожному класі. Це корисно, коли важливо оцінити модель рівномірно по всіх
класах, навіть якщо один клас зустрічається рідше.
67
Вивід f1_train і f1_test дозволяє оцінити, наскільки добре модель навчається
на тренувальних даних і наскільки добре узагальнює результати на невідомих
даних (тестових).
Ще одним із показників якості досліджуваної моделі є матриця
переплутування (confusion matrix) — це один з основних інструментів для оцінки
ефективності класифікаційної моделі. Вона показує, як модель передбачає класи
для кожного прикладу порівняно зі справжніми мітками (рис.3.12).
Рисунок 3.12 - Представлення матриця переплутування (confusion matrix)
для моделі K-Nearest Neighbors
Структура матриці:
o рядки відповідають справжнім класам (y_true), а стовпці —
передбаченим класам (y_pred);
o елемент матриці cm[i, j] показує кількість прикладів, що належать до
класу i і були класифіковані як клас j.
Інтерпретація:
o діагональні елементи — це правильно класифіковані приклади (true
positives);
o позадіагональні елементи — помилки класифікації, тобто випадки,
коли модель переплутала класи.
Наприклад, для бінарної класифікації:
Верхній лівий кут — true negative (TN) - 3470;
68
Верхній правий кут — false positive (FP - 46);
Нижній лівий кут — false negative (FN) - 88;
Нижній правий кут — true positive (TP) - 3954;
Застосування confusion matrix:
o допомагає оцінити, які класи модель плутає найчастіше;
o використовується для обчислення інших метрик якості: Precision,
Recall, F1-score;
o особливо корисна для задач з кількома класами або незбалансованими
даними, де проста точність (accuracy) може бути оманливою.
Графічне представлення (наприклад, за допомогою ConfusionMatrixDisplay)
дозволяє швидко виявити проблемні класи та оцінити загальну якість
класифікації.
Таким чином на основі проведено аналізу отримано, що false negative = 88
випадків, а false positive = 46 випадків. Модель показує дуже високий рівень
загальної точності та ефективності (F1=0.98), але все одно має невелику кількість
помилок типу false negative і false positive. Для задач кібербезпеки важливо
мінімізувати саме false negatives, оскільки пропущені атаки більш небезпечні, ніж
зайві сповіщення.
Наступна модель для аналізу даних - Дерева рішень (Decision Tree).
Нижче наведений код, який реалізує побудову та оптимізацію моделі Decision
Tree з використанням бібліотеки Optuna для підбору гіперпараметрів.
Наведемо коментар щодо основних функцій, які були застосовані:
функція objective(trial) - використовується для пошуку оптимальних
гіперпараметрів дерева рішень;
69
dt_max_depth = trial.suggest_int('dt_max_depth', 2, 32) - задає діапазон
максимальної глибини дерева від 2 до 32. Це контролює, наскільки складною буде
структура дерева і впливає на перенавчання чи недонавчання;
dt_max_features = trial.suggest_int('dt_max_features', 2, 10) - обирає кількість
ознак, що розглядаються при кожному розділенні вузла. Менше значення може
зменшити ризик перенавчання.
Створюється класифікатор DecisionTreeClassifier з обраними параметрами і
проводиться навчання на тренувальних даних x_train, y_train.
В якості метрики оптимізації використовується accuracy на тестовій вибірці
(classifier_obj.score(x_test, y_test)), яка повертається як результат функції.
study_dt = optuna.create_study(direction='maximize') - створює дослідження
для максимізації accuracy;
study_dt.optimize(objective, n_trials=30) - запускає процес оптимізації
протягом 30 ітерацій (trial), підбираючи комбінації max_depth і max_features, які
забезпечують найкращу точність.
Після завершення оптимізації, з найкращих параметрів
(study_dt.best_trial.params) створюється остаточне дерево рішень:
dt = DecisionTreeClassifier(...).
Модель навчається на повному тренувальному наборі:
dt.fit(x_train, y_train).
Оцінка точності на тренувальних та тестових даних виводиться через
dt.score(x_train, y_train) та dt.score(x_test, y_test).
Вивід найкращого результату Optuna:
print(study_dt.best_trial) - показує деталі найкращого trial, включно з
обраними гіперпараметрами та досягнутим значенням accuracy.
Таким чином, наведений код автоматично підбирає оптимальні
гіперпараметри дерева рішень, що дозволяє підвищити продуктивність моделі та
уникнути ручного перебору. Модель після оптимізації готова для оцінки на
тестових даних та подальшого використання в задачі класифікації мережевих
вторгнень. Результати тестування моделі для метрики f1 та матриця
70
переплутування навелені на рис.3.13, з якої видно, що показники false negative =
30 випадків, а false positive = 18 випадків є кращими для тестової вибірки у
порівнянні з базовою моделлю K-Nearest Neighbors (див. рис.3.12).
Рисунок 3.13 - Представлення метрики f1 та матриця переплутування
(confusion matrix) для моделі Decision Tree
Наступна модель для аналізу даних - Випадковий ліс (Random Forest),
реалазація якої наведена нижче:
Підбір параметрів так само вдбувався при застосуванні бібліотеки Optuna.
Результати якості моделі проаналізовані на тестовій вибірці і наведені на рис.3.14
Рисунок 3.14 - Представлення метрики f1 та матриця переплутування
(confusion matrix) для моделі Random Forest
71
Як видно з представлених результатів, модель так само є досить точною, де
f1=0.997, але показники переплутування є меншими:
false negative =11 випадків;
false positive = 10 випадків
і це значно кращим результатом у порівнянні з моделями K-Nearest
Neighbors та Decision Tree.
Було провдено дослідження для моделі Naive Bayes classifier, результати
яких продемонстровано на рис.3.15.
Рисунок 3.15 - Представлення метрики f1 та матриця переплутування
(confusion matrix) для моделі Naive Bayes classifier
Як видно з представлених результатів, модель не демонструє таких високих
показників, де f1=0.904, але показники переплутування є суттєво більшими:
false negative =269 випадків;
false positive = 528 випадків
і це гірший результат у порівнянні з досліджуваними моделями K-Nearest
Neighbors, Decision Tree та Random Forest.
Було провдено дослідження для моделі XGBoost Gradient Boosting,
результати яких продемонстровано на рис.3.16.
72
Рисунок 3.16 - Представлення метрики f1 та матриця переплутування
(confusion matrix) для моделі XGBoost Gradient Boosting
Як видно з представлених результатів, модель так само є досить точною, де
f1=0.997, але показники переплутування є меншими:
false negative =7 випадків;
false positive = 11 випадків
і це кращий результат у порівнянні з досліджуваними моделями K-Nearest
Neighbors, Decision Tree, Naive Bayes classifier та Random Forest.
Було провдено дослідження для моделі CatBoost Classifier, результати яких
продемонстровано на рис.3.17.
Рисунок 3.17 - Представлення метрики f1 та матриця переплутування
(confusion matrix) для моделі CatBoost Classifier
73
Як видно з представлених результатів, модель так само є досить точною, де
f1=0.999, але показники переплутування є наступними:
false negative =8 випадків;
false positive = 12 випадків
і це демонструє високий результат на рівні з досліджуваними моделями Random
Forest та XGBoost Gradient Boosting.
Для покращення результату скористаємося технологією голосування
моделей. Ансамблевий метод Voting Classifier є підходом у машинному навчанні,
який поєднує прогнози кількох різних моделей для отримання більш точного та
стабільного результату. Основна ідея полягає в тому, що декілька класифікаторів,
кожен з яких має власні сильні та слабкі сторони, разом формують узгоджене
рішення, що зменшує ризик випадкових помилок окремої моделі. Voting може
працювати у двох режимах: hard voting, коли рішення приймається на основі
більшості голосів щодо класу, та soft voting, коли моделі генерують ймовірності, а
фінальне рішення визначається шляхом усереднення цих ймовірностей. Останній
варіант часто демонструє кращу ефективність, оскільки враховує ступінь
упевненості кожної моделі.
Застосування Voting є особливо корисним у задачах класифікації, де окремі
моделі можуть демонструвати зміщення або різний рівень точності на різних
підмножинах даних. Об’єднання моделей, що базуються на різних принципах
дозволяє підсилити узагальнюючу здатність та зменшити ймовірність
перенавчання. Крім того, Voting часто застосовується як завершальний етап
побудови ансамблю, коли попередньо налаштовані моделі проходять голосування
для остаточного прогнозу. Завдяки цьому Voting забезпечує високу точність,
стабільність і надійність моделі у системах виявлення аномалій, мережевих
вторгнень чи інших критичних задачах класифікації.
Для голосування були відібрані три кращі моделі:
74
Ансамбль складається з трьох моделей — XGBoost, RandomForest та
CatBoost, які доповнюють одна одну завдяки різним принципам навчання.
Використання soft voting забезпечує усереднення ймовірностей, а не просто
голосів класів, що робить прогноз більш чутливим до ступеня впевненості кожної
моделі. Призначення ваг [2, 1, 2] дозволяє надати більшу пріоритетність XGB і
CatBoost, які зазвичай демонструють вищу якість на табличних даних, тоді як
RandomForest виступає як стабілізуючий елемент ансамблю. Такий підхід у
підсумку дозволяє отримати більш точну, збалансовану і стійку модель для задачі
виявлення мережевих вторгнень і демонструється на рис.3.18.
Як видно з представлених результатів, модель є досить точною, де f1=0.998,
а показники переплутування є наступними:
false negative =6 випадків;
false positive = 9 випадків
і це демонструє кращий результат у порівнянні з попередніми моделями.
Рисунок 3.18 - Представлення метрики f1 та матриця переплутування
(confusion matrix) для моделі Voting
75
Нижче подано зведену таблицю (табл.3.1) результатів роботи моделей на
тестовій вибірці, відповідно до отриманих метрик f1-score та значень матриці
переплутування (False Negative та False Positive).
Аналіз зведеної таблиці результатів демонструє чітку тенденцію: хоча
більшість моделей машинного навчання показали дуже високі значення f1-score
метрики (понад 0.97), показники матриці переплутування істотно відрізняються.
Naive Bayes, попри f1=0.904, має надзвичайно високі значення FN та FP, що в
реальних умовах роботи IDS робить його малопридатним — модель пропускає
значну кількість шкідливих подій і часто хибно сигналізує про атаки. Натомість
такі моделі як Decision Tree та Random Forest демонструють значно кращу
збалансованість між точністю класифікації та кількістю помилок, суттєво
зменшуючи FN і FP у порівнянні з наївним байєсівським класифікатором.
Таблиця 3.1. Результати роботи моделей на тестовій вибірці
False False
№ Модель F1-score Negative Positive
(FN) (FP)
1 Naive Bayes Classifier 0.904 269 528
2 K-Nearest Neighbors 0.980 88 46
3 Decision Tree 0.990 30 18
4 Random Forest 0.997 11 10
5 XGBoost Gradient Boosting 0.997 7 11
6 CatBoost Classifier 0.999 8 12
Ансамбль Voting
7 0.998 6 9
(XGB + RF + CatBoost)
Особливу увагу варто звернути на ансамблеві методи — Random Forest,
XGBoost та CatBoost. Хоча всі вони демонструють майже ідентичні значення F1-
76
метрики (у діапазоні 0.997–0.999), їхні показники FN та FP варіюють. XGBoost
показує найнижчий FN (7), тоді як CatBoost забезпечує мінімальні FP серед
бустингових моделей. Це свідчить про те, що навіть за високої F1-метрики
необхідно детально аналізувати матрицю переплутування, адже саме вона дає
можливість оцінити, наскільки часто модель пропускає аномалії (FN) або
сигналізує про них помилково (FP). У системах IDS такі помилки мають різну
критичність: пропущена атака є значно небезпечнішою, ніж хибне сповіщення.
Найкращий загальний результат показав ансамбль VotingClassifier, який
поєднав моделі XGBoost, Random Forest і CatBoost у режимі «soft voting». Хоча
його F1-метрика (0.998) майже не відрізняється від інших сильних моделей, саме
найнижчі показники FN=6 та FP=9 свідчать про найвищу практичну
ефективність.
Ансамбль вдало поєднав сильні сторони окремих класифікаторів і
компенсував їхні слабкі місця. Завдяки цьому він мінімізував ризик пропуску атак
і при цьому зменшив кількість хибних тривог. Отже, під час застосування в
реальних системах мережевої безпеки саме Voting-модель є найбільш
збалансованою та надійною, незважаючи на схожість F1-показників з іншими
алгоритмами.
3.4 Висновки
Проведений аналіз декількох моделей машинного навчання показав, що
кожен алгоритм має свої переваги та обмеження при вирішенні задачі виявлення
мережевих вторгнень. Такі моделі, як KNN, Decision Tree, Random Forest, XGBoost
та CatBoost, демонструють різний рівень точності, здатність до узагальнення,
швидкість роботи та стійкість до шумів або складних взаємозв’язків у даних. Під
час оцінювання окремих моделей було встановлено, що хоча деякі алгоритми
можуть давати високі показники точності, вони не завжди оптимально працюють
77
у задачах зі складною структурою ознак або високою небезпекою хибних
спрацьовувань.
Алгоритми ансамблю, такі як Random Forest або XGBoost, показали вищу
ефективність у порівнянні з простішими моделями, оскільки здатні краще
узагальнювати закономірності в датасеті та зменшувати ризик перенавчання.
CatBoost також продемонстрував високі результати завдяки своїй здатності
ефективно працювати з категоріальними ознаками та складними
взаємозалежностями. Однак кожна модель окремо все одно мала свої слабкі
місця: у деяких випадках спостерігалися підвищені показники false positive або
false negative, що є критичним фактором для задач кібербезпеки, де помилка може
призвести до пропуску атаки або надмірних хибних сповіщень.
Запровадження ансамблевої моделі на основі VotingClassifier дозволило
об'єднати сильні сторони різних алгоритмів та компенсувати їх індивідуальні
недоліки. Використання soft voting у поєднанні з різними вагами для XGBoost,
CatBoost та RandomForest надало можливість моделі враховувати ступінь
впевненості кожного класифікатора. Завдяки цьому голосування перетворилося
на збалансовану систему, де найточніші моделі отримали більший вплив на
кінцевий результат, а більш стабільні — забезпечили надійність і стійкість до
флуктуацій даних.
У підсумку, ансамблева модель із використанням XGBoost, CatBoost та
RandomForest показала значно покращені результати, зменшивши кількість false
negative до 6 та false positive до 9 випадків. Це є суттєвим досягненням у
порівнянні з індивідуальними моделями, адже мінімальна кількість пропущених
атак є ключовим фактором ефективності IDS. Такий результат демонструє, що
використання поєднання різних підходів у рамках ансамблю дозволяє досягти
високої точності, збалансованості та практичної придатності для реальних систем
виявлення вторгнень.
78
ВИСНОВКИ
Побудова сучасних систем виявлення вторгнень (IDS) залишається однією з
ключових задач у сфері кібербезпеки, оскільки обсяги та складність мережевого
трафіку постійно зростають. Традиційні методи, що ґрунтуються виключно на
сигнатурах або ручному налаштуванні правил, вже не здатні ефективно
протидіяти новим типам атак, які швидко еволюціонують і часто уникають
класичних механізмів фільтрації. Тому актуальність застосування
інтелектуальних підходів, що дозволяють адаптуватися до змінюваних загроз, є
безперечною і визначає необхідність впровадження гібридних та машинних
методів аналізу.
Методи машинного навчання виявилися особливо корисними для аналізу
мережевого трафіку, оскільки вони дозволяють моделі автоматично виявляти
закономірності, які складно або неможливо описати вручну. ML-моделі здатні
навчатися на великих обсягах даних, адаптуватися до нових загроз та надавати
точні прогнози навіть у випадку складних, нелінійних залежностей між
параметрами трафіку. Крім того, машинне навчання дозволяє застосовувати
комбінації різних моделей, підвищуючи загальну ефективність системи
виявлення.
У дослідженні було проаналізовано низку моделей, включаючи KNN,
Decision Tree, Random Forest, XGBoost та CatBoost, кожна з яких
продемонструвала різний рівень продуктивності та стійкості до шуму. Особливу
увагу було приділено інженерії ознак, нормалізації та кодуванню категоріальних
змінних, що суттєво впливає на якість моделей. Отримані результати
підтверджують, що правильна підготовка даних та вибір релевантних ознак
відіграють визначальну роль у підвищенні точності IDS.
Порівняння моделей показало, що окремі алгоритми можуть досягати
високих показників точності, проте їх ефективність варіюється залежно від типу
даних та конкретних характеристик атак. Наприклад, деревоподібні алгоритми
добре працюють з нелінійними структурами, а бустингові моделі забезпечують
79
високу здатність до узагальнення. Проте навіть найкращі окремі моделі мають
певні недоліки, зокрема підвищену кількість хибнопозитивних або
хибнонегативних результатів.
З цієї причини особливо ефективним виявився ансамблевий підхід на основі
VotingClassifier, який поєднав сильні сторони декількох моделей — XGBoost,
CatBoost та RandomForest. Завдяки застосуванню soft-voting та зважуванню
впливу класифікаторів вдалося значно підвищити точність остаточного прогнозу.
Ансамбль зміг істотно знизити кількість хибних спрацьовувань: false negative —
до 6, false positive — до 9, що є вкрай важливим у контексті реальних систем
безпеки.
Отримані результати роботи демонструють, що застосування машинного
навчання в IDS дозволяє створювати гнучкі, точні та масштабовані системи
виявлення загроз. Поєднання якісної попередньої обробки даних, правильного
вибору моделей та ансамблевих методів забезпечує суттєве підвищення
ефективності системи. Таким чином, машинне навчання є не лише
перспективним, але й практично необхідним інструментом у побудові сучасних
рішень для захисту мережевого середовища.
80
СПИСОК ВИКОРИСТАНОЇ ЛІТЕРАТУРИ
1. Основи машинного навчання : навч. посiб. / В. О. Харченко. – Суми :
Сумський державний унiверситет, 2023. – 264 с.
2. Shalev-Shwartz S. Understanding Machine Learning: From Theory to Algorithms
/ S. Ben-David, S. Shalev-Shwartz. – New York : Cambridge University Press,
2014. – 449 p.
3. Deisenroth M. P. Mathematics for machine learning / M. P. Deisenroth, A. A.
Faisal, C. S. Ong. – New York : Cambridge University Press, 2020. – 412 p.
4. Лук’яненко Т.Ю., Поночовний П.М., Легомінова С.В. Методика виявлення
мережевих вторгнень і ознак комп'ютерних атак на основі емпіричного
підходу // Сучасний захист інформації No 2 (50) 2022, с.15-22.
5. Завада А.А. Аналіз сучасних систем виявлення атак і запобігання
вторгненням / А.А. Завада, О.В. Самчишин, В.В. Охрімчук // Інформаційні
системи. Житомир: Збірник наукових праць ЖВІНАУ, 2012. Т. 6, No 12. С.
97-106.
6. Толюпа С.В., Плющ О.Г., Пархоменко І.І. Побудова систем виявлення атак
в інформаційних мережах на нейромережевих структурах / Толюпа С.В.,
Плющ О.Г., Пархоменко І.І.// К.:К1БЕРБЕЗПЕКА: освіта, наука. Техніка №
2 (10), 2020. С.169-181.
7. Dua, S.; Du, X. Data Mining and Machine Learning in Cybersecurity; Auerbach
Publications: Boca Raton, FL, USA, 2016.
8. IEEE. Artificial Intelligence and Machine Learning Applied to Cybersecurity;
IEEE: New York, NY, USA, 2017.
9. A fuzzy Intrusion Detection System based on categorization of attacks
[Електронний ресурс]. – 2014. – Режим доступу до ресурсу:
https://www.semanticscholar.org/paper/A-fuzzy-Intrusion-Detection-System-
basedon-of-Varshovi-ostamipour/8dc771ce3584a6daafeb2023b752b2e99e03f5d8
10. Liang, J.; Zhao, W.; Ye, W. Anomaly-Based Web Attack Detection: A Deep
Learning Approach. In Proceedings of the International Conference on Network,
81
Communication and Computing (ICNCC), Silicon Valley, CA, USA, 26–29
January 2017; pp. 80–85.
11. Alrawashdeh, K.; Purdy, C. Toward an Online Anomaly Intrusion Detection
System Based on Deep Learning. In Proceedings of the IEEE International
Conference on Machine Learning and Applications (ICMLA), Anaheim, CA,
USA, 18–20 December 2016; pp. 195–200.