Будь ласка, використовуйте цей ідентифікатор, щоб цитувати або посилатися на цей матеріал:
https://er.chdtu.edu.ua/handle/ChSTU/6503| Назва: | Розробка методів автоматичного виявлення фішингових веб-сайтів із використанням машинного навчання |
| Автори: | Палагін, Володимир Васильович Ігнатенко, Руслан Бахишович |
| Ключові слова: | машинне навчання;фішинг;класифікація вебсайтів;виявлення кіберзагроз |
| Дата публікації: | 2025 |
| Короткий огляд (реферат): | Метою роботи є розробка та дослідження методів автоматичного виявлення фішингових веб-сайтів на основі алгоритмів машинного навчання, а також створення ефективної моделі класифікації URL-адрес із подальшою реалізацією системи аналізу веб-ресурсів. Об’єктом дослідження є процеси та методи виявлення фішингових веб-сайтів у системах кібербезпеки, що дозволяють ідентифікувати шкідливі веб-ресурси на основі аналізу їхніх характеристик. Предметом дослідження є моделі машинного навчання, методи обробки веб-сторінок, а також алгоритми класифікації, які забезпечують автоматичне визначення фішингових веб-сайтів серед легітимних ресурсів. |
| URI (Уніфікований ідентифікатор ресурсу): | https://er.chdtu.edu.ua/handle/ChSTU/6503 |
| Розташовується у зібраннях: | 125 Кібербезпека та захист інформації (Безпека інформаційних і комунікаційних систем) |
Файли цього матеріалу:
| Файл | Опис | Розмір | Формат | |
|---|---|---|---|---|
| М_125_Ігнатенко_Палагін.pdf Restricted Access | 2.08 MB | Adobe PDF | Переглянути/Відкрити Запит копії |
Усі матеріали в архіві електронних ресурсів захищено авторським правом, усі права збережено.
Extracted text
МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ
ЧЕРКАСЬКИЙ ДЕРЖАВНИЙ ТЕХНОЛОГІЧНИЙ УНІВЕРСИТЕТ
ФАКУЛЬТЕТ ЕЛЕКТРОННИХ ТЕХНОЛОГІЙ,
АВТОТРАНСПОРТУ ТА МАШИНОБУДУВАННЯ
КАФЕДРА РОБОТОТЕХНІЧНИХ І ТЕЛЕКОМУНІКАЦІЙНИХ СИСТЕМ
ТА КІБЕРБЕЗПЕКИ
До захисту допущено
завідувач кафедри РТСК
д.т.н., професор
_______________ В.В. Палагін
"_____" _____________ 2025 року
Пояснювальна записка
до дипломного роботи
магістра
(освітньо-кваліфікаційний рівень)
на тему Розробка методів автоматичного виявлення фішингових веб-сайтів із
використанням машинного навчання
Виконав: студент 2 курсу, групи мБІ-41
Спеціальності 125 – «Кібербезпека та захист інфомації»,
(шифр і назва спеціальності)
освітньої програми «Безпека інформаційних і комуніка-
ційних систем»
(назва освітньої програми)
Ігнатенко Р.Б.
(прізвище та ініціали)
Керівник Палагін В.В.
(прізвище та ініціали)
Рецензент Лавданський А.О.
(прізвище та ініціали)
Черкаси – 2025 року
ЗМІСТ
ВСТУП 5
РОЗДІЛ 1. ТЕОРЕТИЧНІ ОСНОВИ ВИЯВЛЕННЯ ФІШИНГОВИХ
8
ВЕБ-САЙТІВ
1.1. Поняття та класифікація фішингових атак 8
1.2. Техніки та інструменти, що використовуються фішерами 12
1.3. Огляд сучасних методів виявлення та блокування фішингу 18
1.4. Висновки 26
РОЗДІЛ 2. АНАЛІЗ ОЗНАК ВЕБ-РЕСУРСІВ ДЛЯ ВИЯВЛЕННЯ
28
ФІШИНГУ
2.1. Постановка задачі класифікації веб-ресурсів 28
2.2. Вибір ознак веб-ресурсів та їх характеристика 30
2.3. Розроблення та обґрунтування архітектури системи виявлення 41
фішингових сайтів
2.4. Висновки 46
РОЗДІЛ 3. РЕАЛІЗАЦІЯ ТА АНАЛІЗ МОДЕЛЕЙ ML ДЛЯ
48
ВИЯВЛЕННЯ ФІШИНГОВИХ ВЕБ-САЙТІВ
3.1 Аналіз та опис використовуваного датасету 48
3.2 Побудова та обгрунтування архітектури системи ML для обробки 52
веб-ресурсів
3.3 Навчання та розгортання моделі ML 55
3.4 Тестування та оцінка ефективності системи 65
мБі41.025.251.248 ПЗ
Змн. Арк. № докум. Підпис Дата
Розроб. Ігнатенко Р.Б. Розробка методів автоматичного Літ. Арк. Акрушів
Перевір. Палагін В.В. виявлення фішингових веб-сайтів 3
Реценз. із використанням машинного
Н. Контр. Палагін В.В. навчання ЧДТУ
Затверд.
3.5. Висновки 69
ВИСНОВКИ 72
СПИСОК ВИКОРИСТАНОЇ ЛІТЕРАТУРИ 74
ДОДАТОК А. Ілюстративний матеріал 87
Лист
мБі41.025.251.248 ПЗ
Змін.
Лист № докум. Підпис Дата
Форма № Н-9.01
ЧЕРКАСЬКИЙ ДЕРЖАВНИЙ ТЕХНОЛОГІЧНИЙ УНІВЕРСИТЕТ
Факультет електронних технологій, автотранспорту та машинобудування
Кафедра робототехнічних і телекомунікаційних систем та кібербезпеки
Освітньо-кваліфікаційний рівень магістр
Спеціальність 125 – Кібербезпека та захист інформації
Освітня програма – Безпека інформаційних і комунікаційних систем
ЗАТВЕРДЖУЮ
Завідувач кафедри В.В. Палагін
“_____” ___________________ 2025 року
ЗАВДАННЯ
НА ВИПУСКНУ РОБОТУ СТУДЕНТУ
Ігнатенко Руслан Бахишович
(прізвище, ім’я, по батькові)
1. Тема проекту (роботи) Розробка методів автоматичного виявлення фішингових веб-
сайтів із використанням машинного навчання
керівник проекту (роботи) Палагін Володимир Васильович
(прізвище, ім’я, по батькові, науковий ступінь, вчене звання)
затверджені наказом вищого навчального закладу від «15» вересня 2025 року № 261/03-03
2. Термін здачі студентом закінченої роботи «05» грудня 2025 року_________
3. Вихідні дані до роботи: підготувати датасет Phishing Website Detection (платформа
Kaggle) для навчання та тестування моделей, включаючи етапи очищення, нормалізації
та балансування класів. Реалізувати та дослідити кілька моделей машинного навчання
для задачі класифікації фішингових вебсайтів, обрати найоптимальніший варіант.
Виконати оптимізацію гіперпараметрів та провести порівняльний аналіз ефективності
моделей за метриками Precision, Recall, F1-score. Розробити програмний модуль парсингу
вебресурсів для автоматичного формування ознак із довільного URL. Провести
експериментальні дослідження та сформулювати висновки щодо доцільності
застосування вибраних алгоритмів для задачі виявлення фішингових сайтів; мова
програмування — Python
4. Зміст розрахунково-пояснювальної записки (перелік питань, що їх належить розробити)
Вступ; Теоретичні основи виявлення фішингових веб-сайтів; Аналіз ознак веб-ресурсів для
виявлення фішингу; Розробка та реалізація системи автоматичного виявлення
фішингових сайтів; Висновки; Список використаних джерел.
5. Перелік графічного матеріалу (з точним зазначенням обов’язкових креслень, плакатів):
Мета та актуальність дослідження, Огляд сучасних методів виявлення та блокування
фішингу; Вибір ознак веб-ресурсів та їх характеристика; Розроблення та обґрунтування
архітектури системи виявлення фішингових сайтів; Навчання та розгортання моделі
ML; Тестування та оцінка ефективності системи; Скріншоти роботи програми;
Мультимедійна презентація.
.
6. Консультанти з проекту (роботи) із зазначенням розділів проекту, що їх стосуються
Прізвище, ініціали та посада Підпис, дата
Розділ консультанта завдання завдання
видав прийняв
7. Дата видачі завдання 05 вересня 2025 року
КАЛЕНДАРНИЙ ПЛАН
№ Назва етапів дипломного Строк виконання
з/п проекту (роботи) етапів проекту Примітка
(роботи)
1. П ошук і аналіз інформації по заданій темі 01.09.2025-
16.09.2025
2. Н аписання 1-го розділу: Теоретичні основи 17.09.2025-
виявлення фішингових веб-сайтів 29.09.2025
3. Н аписання 2-го розділу: Методи та моделі 30.09.2025-
машинного навчання для виявлення фішингу 20.10.2025
4. Н аписання 3-го розділу: Розробка та реалізація 21.10.2025-
системи автоматичного виявлення фішингових 09.11.2025
сайтів
5. Н аписання вступу і висновків, складання 10.11.2025-
списку літератури 22.11.2025
6. О формлення пояснювальної записки 23.11.2025-
05.12.2025
7. О формлення плакатів презентації 01.12.2025-
05.12.2025
Студент Ігнатенко Р.Б.
( підпис ) (прізвище та ініціали)
Керівник проекту (роботи) Палагін В.В.
( підпис ) (прізвище та ініціали)
ВСТУП
Фішингові веб-сайти сьогодні є одним із найпоширеніших та
найнебезпечніших інструментів кіберзлочинців. За даними міжнародних
аналітичних центрів, кількість фішингових атак щороку зростає, а їхня
складність посилюється завдяки використанню нових технік соціальної
інженерії та автоматизованих засобів для генерації шкідливих ресурсів.
Фішинг став ключовим елементом у багатьох кібератаках, включаючи
викрадення облікових даних, фінансові шахрайства, несанкціонований
доступ до корпоративних мереж та ініціювання ransomware-кампаній. Це
робить проблему виявлення фішингових сайтів однією з пріоритетних у
сфері кібербезпеки.
Традиційні підходи до виявлення фішингу — такі як використання
чорних списків, сигнатурних баз або простих евристичних правил — стають
дедалі менш ефективними. Кіберзлочинці масово створюють короткотривалі
домени, що існують лише кілька годин, а також застосовують методи
маскування, які ускладнюють їх фіксацію класичними системами. Оскільки
нові фішингові сайти можуть з’являтися тисячами протягом доби,
актуальність автоматизованих, адаптивних методів виявлення лише зростає.
Методи штучного інтелекту та машинного навчання відкривають нові
можливості, значно підвищуючи точність та швидкість ідентифікації
шкідливих веб-ресурсів. Використання ML-моделей дозволяє будувати не
лише правила, а й навчати систему на великих обсягах даних, виявляючи
закономірності, які неочевидні для людини чи традиційних алгоритмів. ML
здатне працювати в умовах високої динаміки та непередбачуваності атак, що
робить його ефективним інструментом у боротьбі з сучасним фішингом.
Особливе значення має застосування саме методів автоматичного
аналізу ознак URL, HTTP/HTTPS-параметрів, WHOIS-даних, контенту
сторінки та поведінкових характеристик веб-ресурсів. Моделі, навчені на
Лист
Змін. ЧДТУ.25.24251.004 ПЗ
Лист № докум. Підпис Дата 5
таких багатовимірних даних, здатні виявляти неявні аномалії, які не будуть
виявлені системами, побудованими на фіксованих шаблонах. Це дозволяє
створювати системи, які реагують не лише на відомі загрози, але й на
принципово нові фішингові техніки.
Паралельно з цим розвиток глибинного навчання, ансамблевих методів
та оптимізаційних стратегій створює передумови для підвищення
ефективності систем кіберзахисту на якісно новий рівень. Інтелектуальні
моделі можуть бути інтегровані у SIEM/SOAR-системи, веб-фільтри, проксі-
сервери та корпоративні засоби безпеки, забезпечуючи автоматичне
блокування загроз у реальному часі. Це критично важливо для організацій,
що мають значні обсяги мережевого трафіку та обмежені ресурси для
ручного аналізу.
Таким чином, дослідження методів автоматичного виявлення
фішингових веб-сайтів із застосуванням машинного навчання є надзвичайно
актуальним та перспективним напрямом розвитку кіберзахисту.
Метою роботи є розробка та дослідження методів автоматичного
виявлення фішингових веб-сайтів на основі алгоритмів машинного навчання,
а також створення ефективної моделі класифікації URL-адрес із подальшою
реалізацією системи аналізу веб-ресурсів.
Для досягнення поставленої мети в роботі необхідно виконати такі
завдання:
1. Проаналізувати сучасні типи фішингових атак, їхню класифікацію та
методи обходу традиційних засобів захисту;
2. Дослідити існуючі підходи та моделі виявлення фішингових веб-сайтів,
включаючи сигнатурні, евристичні та ML-підходи;
3. Сформувати та підготувати датасет для навчання моделей, провести
попередню обробку URL та пов’язаних метаданих;
4. Обрати, налаштувати та навчити моделі машинного навчання для
класифікації веб-сайтів на фішингові та легітимні;
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 6
5. Оцінити ефективність побудованих моделей.
Об’єктом дослідження є процеси та методи виявлення фішингових
веб-сайтів у системах кібербезпеки, що дозволяють ідентифікувати шкідливі
веб-ресурси на основі аналізу їхніх характеристик.
Предметом дослідження є моделі машинного навчання, методи
обробки веб-сторінок, а також алгоритми класифікації, які забезпечують
автоматичне визначення фішингових веб-сайтів серед легітимних ресурсів.
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 7
1. ТЕОРЕТИЧНІ ОСНОВИ ВИЯВЛЕННЯ ФІШИНГОВИХ ВЕБ-
САЙТІВ
1.1. Поняття та класифікація фішингових атак
Фішинг є одним із найбільш поширених типів кіберзагроз, що
ґрунтується на використанні технік соціальної інженерії з метою отримання
конфіденційних даних користувачів. Під фішинговою атакою розуміють
навмисне створення зловмисником підробленого ресурсу або комунікації, які
імітують легітимну структуру, організацію чи сервіс, з метою виманювання
облікових даних, фінансової інформації або інших цінних відомостей.
Фішинг спирається на психологічний вплив і маніпуляцію, що робить його
ефективним навіть у добре захищених інформаційних середовищах.
Класичним прикладом є створення підроблених веб-сайтів, що зовні
копіюють інтерфейс офіційних сервісів банків, соціальних мереж, поштових
платформ чи платіжних систем (рис.1.1).
Рис.1.1. Приклади фішингових веб-ресурсів
Користувач, не помітивши підробки, вводить свої персональні дані, які
одразу потрапляють до кіберзлочинців. Попри те, що технологічні засоби
захисту значно покращилися, фішинг залишається ефективним через
здатність атак швидко адаптуватися та обходити захисні механізми.
Фішингові атаки можуть здійснюватися у різних каналах комунікації,
включаючи електронну пошту, SMS, соціальні мережі, месенджери, а також
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 8
через створення підроблених веб-сайтів. За типом поширення та цільовою
аудиторією фішинг поділяється на масовий та цільовий. Масовий фішинг
передбачає відправлення великої кількості однакових повідомлень,
розрахованих на широку аудиторію. Такий підхід забезпечує зловмисникам
високу ймовірність успіху за рахунок масовості.
Особливе місце серед видів фішингу займає цільовий фішинг (spear
phishing), спрямований на конкретних осіб або організації. У таких атаках
зловмисники враховують специфіку діяльності жертви, її посадові обов’язки,
робочі контакти та інші персоналізовані дані. Цільові атаки зазвичай
використовуються для проникнення в корпоративні мережі, викрадення
інтелектуальної власності або ініціювання компрометацій у ланцюжку
постачань.
До окремого різновиду цільових атак належить так званий «китовий
фішинг» (whaling), який спрямований на високопосадовців або керівників
компаній із розширеним доступом до критичних систем. Зловмисники
ретельно готують такі атаки, використовуючи психологічний тиск, офіційний
стиль листування та реальні внутрішні деталі з діяльності організації. Через
значні потенційні збитки whaling є однією з найнебезпечніших форм
фішингових атак.
Іншим поширеним видом є віша (vishing) — фішинг, що здійснюється
за допомогою телефонних дзвінків. Зловмисники видають себе за
представників банків, державних органів або відомих компаній, намагаючись
змусити жертву розкрити особисті дані або здійснити небезпечні дії. Так
само існує смішинг (smishing) — фішинг через SMS, який використовує
короткі повідомлення з посиланнями на підроблені ресурси або загрозами
щодо блокування акаунтів (табл.1.1).
Ключові відмінності між смішингом, фішингом та вішингом полягають
у векторах атаки та методах доставки. Фішинг спрямований на користувачів
онлайн через електронну пошту, смішинг зосереджується на мобільних
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 9
користувачах через текстові повідомлення, а вішинг передбачає прямі
телефонні дзвінки. Кожен метод також використовує різні методи
імперсонації, такі як компанії та служби у фішингу, довірені організації у
смішингу та банки чи посадовці у вішингу.
Табл.1.1. Різновиди фішингових атак та їх характеристики
З розвитком цифрових технологій з’явилися нові форми фішингу,
пов’язані з підробкою веб-сторінок та використанням динамічних скриптів.
До таких технік належить фармінг (pharming) — перенаправлення
користувача на фальшивий сайт не через повідомлення, а через
компрометацію DNS-записів чи підміну налаштувань маршрутизатора метою
крадіжки імен користувачів, паролів, фінансових даних та іншої особистої
інформації.
Коли ви вводите URL-адресу в адресний рядок браузера,
наприклад, www.google.com , перш ніж ви побачите знайомий логотип Google
та поле пошуку на екрані комп’ютера, має відбутися кілька фонових
процесів. Під час фармінгової атаки кіберзлочинці непомітно маніпулюють
цими процесами, надсилаючи ваш веб-трафік на шкідливий веб-сайт замість
того, який ви мали намір відвідати. Цільовий сайт може
завантажувати шкідливе програмне забезпечення на ваш комп’ютер.
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 10
Найчастіше це фальшивий фішинговий сайт. Саме остання діяльність дала
фармінгу його назву, що є поєднанням слів «фішинг» та «фармінг».
Типовий фішинговий сайт підроблений або фальшивий, щоб виглядати
як сайт, який жертва регулярно відвідує, часто фінансового або електронного
комерційного характеру. Мета фішингового сайту полягає в тому, щоб
зібрати або перехопити імена користувачів та паролі, коли нічого не
підозрююча жертва намагається увійти до свого облікового запису.
Фармінг – це складний вид фішингової атаки , який може вплинути на
будь-кого на будь-якій платформі. Користувачам Windows та Mac , а також
мобільним користувачам Android та iOS слід бути обережними щодо
потенційних фармінгових атак.
Іншим різновидом є клонування сайтів (website cloning), коли
копіюється структура і дизайн легітимної сторінки з мінімальними змінами,
що ускладнює виявлення атаки.
Також варто виділити сучасні методи автоматизованого фішингу, що
генеруються за допомогою ботнетів або скриптів, які створюють тисячі
фішингових доменів на добу. Такі атаки часто поєднують алгоритмічно
згенеровані домени, автоматичне верстання сторінок і швидке розгортання
інфраструктури у хмарних середовищах. Динамічність сучасного фішингу
створює додаткові виклики для систем виявлення загроз та обґрунтовує
необхідність використання адаптивних методів штучного інтелекту.
Таким чином, фішингові атаки є багатокомпонентним явищем, що
включає широкий спектр технік впливу, які розвиваються паралельно з
технологічним середовищем. Їхня класифікація охоплює як традиційні, так і
новітні підходи, що використовують підроблені веб-сайти, соціальну
інженерію, автоматизацію та мережеві маніпуляції. Усе це підкреслює
складність проблеми та необхідність сучасних інтелектуальних методів
протидії фішинговим загрозам.
Лист
Змін. ЧДТУ.25.24251.004 ПЗ
Лист № докум. Підпис Дата 11
1.2. Техніки та інструменти, що використовуються фішерами
Однією з ключових технік, що застосовується фішерами, є соціальна
інженерія — комплекс психологічних прийомів, спрямованих на те, щоб
змусити користувача виконати певні дії або розкрити конфіденційні дані.
Соціальна інженерія використовує довіру людей, їхню необізнаність або
поспіх, створюючи ситуації, коли користувачі самостійно вводять дані на
підроблених сайтах чи відкривають шкідливі посилання. За рахунок цього
фішингові атаки можуть бути успішними навіть проти організацій з високим
рівнем технічного захисту.
Одним з основних інструментів, який використовують фішери, є
підроблені електронні листи, що імітують офіційні повідомлення від
банків, сервісів доставки, соціальних мереж або державних структур. Такі
листи створюються з ретельним копіюванням брендингу та стилю справжніх
повідомлень. Вони часто містять фальшиві кнопки «Увійти в акаунт»,
фіктивні повідомлення про проблеми з безпекою або термінові
попередження, що спонукають користувача перейти на шкідливий сайт.
Важливу роль відіграє техніка підробки URL-адрес через застосування
методів омографів, підміни подібних символів або використання схожих
доменних імен, що дозволяє фішерам маскувати шкідливі ресурси під
легітимні веб-сайти. Суть методу полягає у створенні доменних імен, що
візуально схожі на справжні адреси відомих сервісів (рис.1.2). Наприклад,
замість всім відомої назви https://www.amazon.com/ на рис.1.2. зазначено
https://www.amazonn.com/, що може бути вже зловмисним ресурсом.
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 12
Рис.1.2. Реалізація підробленого веб-ресурсу
Наступний різновид вразливості може виникнути через використання
шкідливого виконуваного коду JavaScript на довільному веб-сайті, щоб
змусити браузер оновлювати адресний рядок, поки сторінка все ще
завантажується на іншу адресу, вибрану зловмисником. В цьому випадку
користувач візуально не відрізнить справжній сайт від підробного, до тих пір,
поки не наведе курсор на адресний рядок (рис.1.3)
Рис.1.3. Реалізація підробленого веб-ресурсу при застосуванні
шкідливого ПЗ
Окрім того, зловмисники використовують незначні зміни у написанні
— додавання чи видалення символів, заміну окремих літер або застосування
знаків, які виглядають майже так само, як оригінальні.
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 13
Наприклад, літера «l» може бути замінена цифрою «1», або літера «о»
— цифрою «0», що робить фішинговий домен дуже схожим на офіційний.
Такі маніпуляції складно помітити неуважному користувачу, особливо коли
URL використовується у термінових повідомленнях, які створюють
психологічний тиск.
Серйознішу загрозу становлять IDN-гомографи — домени,
зареєстровані з використанням символів різних алфавітів, які виглядають
однаково або майже однаково. Наприклад, кирилична літера «а» (U+0430)
візуально не відрізняється від латинської «a» (U+0061), що дає змогу
створити фішинговий домен, який повністю повторює зовнішній вигляд
справжнього. Такі домени важко виявити навіть досвідченим користувачам,
якщо браузер не має захисних механізмів проти IDN-гомографів.
Застосування цієї техніки робить фішингові посилання надзвичайно
небезпечними, оскільки вони здатні обходити прості перевірки й обманювати
системи, що базуються на білих списках доменів (рис.1.4).
Рис.1.4. Застосування техніки punycode для підробки URL-адрес
В ІТ-термінології це називається punycode, де літери/символи в адресі
офіційного веб-сайту замінюються іншими схожими літерами/символами
Unicode.
Несвідомо жертви вважають, що адреса веб-сайту, який вони
відвідують, є легітимною, і таким чином потрапляють у пастку. В результаті
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 14
пристрій жертви заражається шкідливим програмним забезпеченням, яке
може передати особисту інформацію жертви хакеру.
Ще одним інструментом приховування підроблених URL є
використання складних структур шляхів, піддоменів та параметрів, що
створюють враження надійності. Наприклад, фішинговий URL може містити
справжню назву бренда, розташовану у вигляді піддомена або в структурі
шляху, тоді як основний домен належить зловмиснику. Прикладом є адреси
на кшталт secure-login.bank.com.evil-domain.org, де насправді легітимною є
лише частина, розташована перед доменом найвищого рівня. Додатково
фішери використовують довгі та заплутані параметри у запитах, які
ускладнюють швидке аналізування URL та можуть приховувати ключові
елементи адреси за межами видимої частини рядка у браузері. Такі підходи
спрямовані на обман користувача та систем безпеки, які покладаються на
просту перевірку домену.
Окремим інструментом фішерів є клонування веб-сайтів — техніка,
що полягає в повному копіюванні дизайну, структури, стилів та HTML-коду
популярних ресурсів. За допомогою спеціальних утиліт — таких як HTTrack
або автоматизовані скрипти — зловмисники можуть швидко створити точні
копії сайтів банків чи інтернет-магазинів. Єдина різниця полягає в тому, що
введені користувачем дані передаються не легітимному сервісу, а серверу
зловмисника.
Завдяки тому, що сучасні сайти нерідко використовують зовнішні
бібліотеки та відкриті ресурси, клонування стає ще простішим: достатньо
зберегти сторінку та внести мінімальні зміни в логіку надсилання даних, щоб
перенаправити введені користувачем облікові дані на контрольований
сервер.
Важливим аспектом ефективності клонованих сайтів є складність їх
візуального розпізнавання. Більшість користувачів звертають увагу на
загальний вигляд сторінки та логотип компанії, і лише невелика частка
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 15
ретельно перевіряє URL-адресу, доменну зону або SSL-сертифікат. Фішери
активно використовують цей психологічний фактор, створюючи клони
популярних банківських порталів, e-commerce-платформ, сервісів
електронної пошти, соціальних мереж чи державних сайтів. Такий підхід
суттєво підвищує рівень довіри жертви, через що клоновані ресурси часто
призводять до компрометації облікових записів або фінансових втрат.
Однією з характерних ознак клонування є виконання прихованої
модифікації коду сторінки, яка змінює цільову поведінку форми або
елементів взаємодії. Наприклад, справжній сайт передає дані через
захищений серверний обробник, тоді як фішинговий клон перенаправляє
введену інформацію на зовнішній API, що належить зловмиснику. У деяких
випадках фішери залишають функціонал оригінального сайту працюючим,
зокрема автоматично пересилають користувача назад на легітимний ресурс
після отримання даних, що знижує ймовірність підозри та ускладнює
подальше розслідування інциденту.
Сучасні дослідження свідчать, що клонування веб-сайтів стає дедалі
складнішим для виявлення класичними методами захисту, оскільки візуальна
схожість та поведінкова імітація досягаються майже на рівні оригіналу. Саме
тому зростає роль методів машинного навчання та штучного інтелекту,
здатних аналізувати нетривіальні ознаки — структуру DOM-дерева,
відсутність певних скриптів, особливості мережевої взаємодії, метадані
сторінки чи аномальні патерни розмітки. Використання ML-підходів
дозволяє створювати гнучкі моделі, що адаптуються до нових способів
підробки та забезпечують більш комплексний захист користувачів і веб-
інфраструктур.
Особливу небезпеку становлять інструменти автоматизованого
генератора фішингових сторінок і фреймворки, такі як Evilginx, Gophish,
Modlishka, що дозволяють реалізувати атаки з перехопленням сесій (session
hijacking) або обхід двофакторної автентифікації. Ці інструменти
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 16
забезпечують реалістичну підміну справжніх форм входу, зберігають трафік
між користувачем і легітимним сайтом та непомітно витягують дані
автентифікації (рис.1.5).
Рис.1.5. Реалізація атаки типу перехоплення сесії.
Session hijacking — це техніка атаки, за якої зловмисник перехоплює
або підробляє дані сеансу автентифікованого користувача з метою отримання
несанкціонованого доступу до його облікового запису. У більшості сучасних
веб-додатків після успішного входу користувачу призначається сеансовий
ідентифікатор (session ID), який передається разом із HTTP-запитами. Якщо
цей ідентифікатор опиняється у руках фішера або іншого атакувальника, він
може використати його для імітації користувача і виконання дій від його
імені без потреби вводити пароль чи проходити повторну автентифікацію.
Перехоплення сесії може відбуватися різними методами: через
підслуховування мережевого трафіку в незахищених Wi-Fi мережах,
використання вразливостей XSS (коли зловмисник впроваджує шкідливий
скрипт для зчитування cookies), маніпуляції з параметрами URL, а також
через соціальну інженерію. Окремим напрямом є session fixation — коли
атакувальник нав'язує жертві заздалегідь відомий йому session ID, після чого
отримує доступ до сесії після входу користувача. Усі ці методи ґрунтуються
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 17
на слабкій або неправильно реалізованій політиці управління сесіями на
стороні сервера.
Небезпека session hijacking полягає в тому, що атака часто відбувається
непомітно, а компрометований сеанс може дозволяти зловмиснику
виконувати критично важливі дії: змінювати налаштування безпеки,
переглядати конфіденційні дані, проводити фінансові операції або красти
особисту інформацію. Тому сучасні системи кіберзахисту використовують
багаторівневі підходи до запобігання таких атак: шифрування трафіку
(HTTPS), регулярну ротацію session ID, захист від XSS, прив’язку сесії до IP-
адреси чи User-Agent, а також застосування механізмів багатофакторної
автентифікації. Саме поєднання цих заходів дозволяє суттєво знизити ризики
перехоплення й компрометації користувацьких сесій.
1.3. Огляд сучасних методів виявлення та блокування фішингу
Чорні списки (blacklists) є одним із найстаріших та найпоширеніших
методів виявлення фішингових веб-сайтів. Їхня основна ідея полягає у
веденні централізованих або розподілених баз даних доменів, IP-адрес чи
URL-адрес, які були ідентифіковані як шкідливі або підозрілі. Браузери,
антивірусні системи та мережеві шлюзи регулярно звіряють запити
користувача з такими списками і блокують ресурси, позначені як фішингові.
У практиці кіберзахисту чорні списки є швидким і ефективним рішенням для
попередження доступу до вже відомих джерел загроз.
Популярні сервіси, такі як Google Safe Browsing, PhishTank або
OpenPhish, забезпечують автоматизоване формування та оновлення чорних
списків, базуючись на даних від дослідників, користувачів і систем штучного
аналізу веб-трафіку. Цей підхід особливо ефективний у середовищах, де
фішингові сайти існують протягом тривалого часу або повторно з’являються
під однаковими доменами. Завдяки широкій інтеграції чорних списків у
Лист
Змін. ЧДТУ.25.24251.004 ПЗ
Лист № докум. Підпис Дата 18
браузери, мобільні додатки та корпоративні рішення їх застосування
залишається популярним у сфері кібербезпеки.
Проте головна слабкість чорних списків полягає у їхній реактивній
природі. Фішингові сайти часто мають вкрай короткий життєвий цикл —
іноді кілька годин або навіть хвилин. Оскільки чорні списки оновлюються з
певною затримкою, це створює "вікно вразливості", коли новий фішинговий
ресурс ще не включено до бази, але він активно використовується у атаках.
Зловмисники також застосовують масове генерування унікальних URL-
адрес, використання fast-flux DNS та інші техніки, що ускладнюють
оперативне внесення доменів до чорних списків.
Сигнатурні методи є іншим класичним підходом до виявлення
фішингу та передбачають аналіз веб-ресурсів на предмет характерних
шаблонів або ознак шкідливої поведінки. Сигнатури можуть включати
особливості структури HTML-коду, наявність підозрілих JavaScript-вставок,
використання специфічних API, невідповідність SSL-сертифікатів або
виявлення типових форм збору даних. Антивірусні продукти й мережеві
системи виявлення вторгнень часто використовують сигнатури як швидкий
спосіб блокувати вже відомі моделі атак.
Перевага сигнатурних методів полягає у високій точності для раніше
розпізнаних типів фішингових сторінок. Оскільки сигнатури створюються на
основі детального аналізу шкідливих зразків, вони дозволяють впевнено
фіксувати повторювані патерни та гарантувати низький рівень помилкових
спрацювань. Це робить сигнатури важливою складовою комплексних систем
кіберзахисту, особливо у корпоративних мережах.
Втім, як і чорні списки, сигнатурні методи мають значні обмеження.
Вони практично не здатні виявляти нові або модифіковані атаки, які не
відповідають наявним патернам. Сучасні фішингові кампанії активно
застосовують методи обфускації коду, динамічного генерування контенту,
приховування форм та адаптивного інтерфейсу, що дозволяє обходити
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 19
статичні сигнатурні механізми. У результаті сигнатурний аналіз часто
потребує поєднання з поведінковими моделями та методами машинного
навчання для забезпечення надійного рівня захисту.
Евристичні методи виявлення фішингових веб-сайтів базуються на
аналізі набору правил і логічних припущень, що дозволяють визначати
потенційно шкідливі ресурси на основі їхніх характеристик. На відміну від
сигнатурних підходів, евристики не обмежуються пошуком точних
відповідностей відомим зразкам, а оцінюють поведінку, структуру та
атрибути сторінки за низкою критеріїв. Завдяки цьому вони здатні виявляти
нові, раніше невідомі фішингові ресурси, що робить їх важливим
компонентом сучасних систем кіберзахисту.
Однією з найпоширеніших евристик є аналіз URL-адреси на предмет
аномальних патернів. Наприклад, якщо доменного імені немає в офіційній
зоні бренду, якщо URL містить надмірну кількість спеціальних символів,
підозрілі піддомени або схожі на бренд комбінації символів (наприклад,
«faceb00k-login-security.com»), сторінка може бути позначена як фішингова.
Така евристика працює навіть тоді, коли сайт ще не внесено до чорного
списку, що значно підвищує рівень проактивного захисту.
Евристики також широко використовуються для аналізу структури
HTML-коду та поведінки сторінки. Наприклад, якщо форма авторизації
надсилає дані не на внутрішній сервер компанії, а на зовнішній домен, це є
типовим індикатором фішингової активності. Інша корисна ознака —
завантаження ресурсів (скриптів, стилів, іконок) із різних джерел, не
пов’язаних між собою, що може свідчити про швидке «зішивання»
клонованої сторінки.
Окремий пласт евристик зосереджений на перевірці SSL-сертифікатів і
криптографічних параметрів. Хоча більшість фішингових сайтів сьогодні теж
використовують HTTPS, їх сертифікати часто є самопідписаними або
виданими маловідомими, безкоштовними сертифікаторськими центрами.
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 20
Евристична система може оцінювати термін дії сертифіката, відповідність
домену, а також використання слабких криптографічних алгоритмів.
Наприклад, сертифікати, видані всього на кілька днів, нерідко є ознакою
фішингової кампанії.
Важливою сферою застосування евристик є аналіз контенту сторінки,
зокрема пошук психологічних тригерів соціальної інженерії. Системи можуть
виявляти слова та фрази, типові для фішингових атак: «Ваш акаунт
заблоковано», «Підтвердіть негайно», «Ваш платіж відхилено» тощо. Якщо
такі фрази поєднуються зі вставленими формами введення персональних
даних, ймовірність фішингу суттєво зростає. Це дозволяє виявляти фальшиві
попередження і повідомлення, які масово використовують фішери.
Ще одним прикладом ефективної евристики є аналіз віку домену.
Фішингові сайти майже завжди використовують новостворені домени, які
існують кілька днів або тижнів. Система може перевіряти записи WHOIS і, у
випадку виявлення домену, зареєстрованого менше ніж місяць тому,
позначати його як підозрілий. Це дозволяє швидко реагувати на нові
фішингові кампанії, навіть без додаткових сигнатур чи чорних списків.
Евристики також оцінюють поведінку сторінки при взаємодії з
користувачем. Наприклад, якщо після введення даних користувача
перенаправляють на справжній сайт компанії без видимих ознак помилки, це
є типовим сценарієм фішингових атак, у яких інформацію крадуть перед
перенаправленням. Також підозру можуть викликати скрипти, що
перехоплюють натискання клавіш, приховані iFrame-вставки та інші
маніпулятивні елементи, які зазвичай відсутні у легітимних ресурсів.
Попри високу ефективність, евристичні методи мають певні обмеження,
зокрема можливість підвищеної кількості хибних спрацювань. Оскільки
евристики ґрунтуються на правилах та умовах, вони можуть помилково
позначати легітимні сайти як підозрілі, якщо ті містять нестандартні або нові
технологічні рішення. Але саме у поєднанні з машинним навчанням та
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 21
поведінковим аналізом евристичні методи стають ключовою основою
адаптивних систем виявлення фішингу, забезпечуючи баланс між точністю,
оперативністю та здатністю протидіяти новим формам атак.
Методи машинного навчання (ML) посідають ключове місце у
сучасних підходах до виявлення фішингових веб-сайтів, оскільки вони
дозволяють аналізувати широкий спектр ознак, що характеризують URL,
домен, структуру сторінки та мережеву поведінку ресурсу. На відміну від
сигнатурних або евристичних методів, моделі ML здатні виявляти складні й
приховані закономірності, які людина або традиційні алгоритми помітити не
можуть. Завдяки цьому системи на основі ML є значно стійкішими до нових,
раніше невідомих фішингових кампаній.
Одним із найпоширеніших підходів є класифікація URL-адрес за
набором числових та категоріальних ознак. До таких ознак можуть належати
довжина URL, кількість спеціальних символів, структура піддоменів,
наявність IP-адреси замість доменного імені, ентропія рядка, статистичні
властивості шляху та параметрів запиту. Методи, такі як Random Forest,
Gradient Boosting, XGBoost або Logistic Regression, широко
використовуються у цьому контексті завдяки здатності ефективно працювати
з великими обсягами структурованих даних та забезпечувати високу точність
класифікації.
Інший напрям машинного навчання для виявлення фішингових сайтів
— аналіз контенту веб-сторінок. Моделі можуть використовувати ознаки
DOM-дерева, частоту використання зовнішніх ресурсів, характеристики
форм введення, перевірку SSL-сертифікатів та поведінкові особливості
сторінок. Такі підходи дають змогу глибше зрозуміти структуру ресурсу й
визначити, чи він відповідає типовим шаблонам легітимних сайтів. Особливо
ефективними є ансамблеві моделі, що поєднують результати кількох
алгоритмів для отримання більш стабільних прогнозів.
Лист
Змін. ЧДТУ.25.24251.004 ПЗ
Лист № докум. Підпис Дата 22
Глибинне навчання (DL) привнесло новий рівень ефективності у сферу
фішинг-детекції завдяки здатності автоматично витягувати релевантні ознаки
прямо зі сирих даних. Наприклад, рекурентні нейронні мережі (RNN) та їхні
модифікації, такі як LSTM або GRU, можуть аналізувати URL як
послідовність символів, виявляючи характерні патерни, що відрізняють
фішингові адреси від легітимних. Цей підхід усуває необхідність ручного
feature engineering та часто демонструє високу точність, особливо в умовах
динамічного змішування різних стилів фішингових URL.
Ще одним перспективним напрямом є застосування згорткових
нейронних мереж (CNN) для аналізу візуального вигляду веб-сторінок.
Фішингові сайти часто візуально копіюють легітимні, але їх графічна
структура може містити дрібні відмінності, які важко ідентифікувати вручну.
CNN можуть обробляти знімки екрана сторінки як зображення та
класифікувати їх як справжні або фішингові, фактично моделюючи процес
візуального сприйняття користувача. Цей підхід особливо корисний у
випадках, коли фішинг орієнтований на інтерфейсні імпостери.
Сучасні моделі також активно використовують гібридні рішення, що
поєднують ознаки URL, контенту, візуального представлення та мережевої
поведінки. Для цього застосовуються трансформери, автоенкодери та графові
нейронні мережі, здатні комплексно аналізувати зв'язки між різними рівнями
інформації. Такі системи демонструють найвищу ефективність, оскільки
можуть адаптуватися до змін у стратегіях фішерів і виявляти атаки, що
обходять традиційні методи. Це робить ML і DL незамінними інструментами
у побудові сучасних, адаптивних та проактивних систем кібербезпеки.
SIEM (Security Information and Event Management) та SOAR (Security
Orchestration, Automation and Response) — це два ключові компоненти
сучасної кібербезпеки, які працюють разом для моніторингу, аналізу та
автоматизації реагування на інциденти. SIEM — це система, яка збирає,
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 23
зберігає, аналізує та корелює дані про події безпеки з різних джерел, SOAR
— це система, яка автоматизує реагування на інциденти безпеки.
З огляду на стрімке зростання кількості фішингових атак та їхню
технічну складність, впровадження SIEM-систем, інтегрованих із
механізмами машинного навчання, набуває особливої актуальності. Класичні
підходи SIEM дозволяють відстежувати події безпеки, проте саме ML-моделі
забезпечують здатність виявляти приховані та нетипові патерни фішингової
активності: аномальні спроби входу, нетипові URL-запити, ризикові домени
чи відхилення в поведінці користувачів. Поєднання логів з ML-алгоритмами
підвищує точність кореляції подій та забезпечує раннє виявлення фішингу,
навіть раніше ніж домен потрапить до чорних списків.
На етапі реагування ключову роль відіграють SOAR-системи, які
значно розширюють можливості автоматизації завдяки ML-модулям.
Машинне навчання забезпечує інтелектуальне прийняття рішень у
плейбуках: визначення ступеня ризику, пріоритетності інциденту,
рекомендацій щодо реагування чи блокування. Це дозволяє SOAR адаптивно
реагувати на нові типи фішингових атак, блокувати шкідливі URL,
обмежувати доступ або ізолювати активи з мінімальною участю аналітика. У
поєднанні з ML SOAR здатний зменшувати час ліквідації фішингових
інцидентів до секунд, що критично в умовах короткого життєвого циклу
шкідливих ресурсів.
Таким чином, інтегровані рішення SIEM/SOAR + ML стають одним із
найбільш перспективних та ефективних інструментів сучасної кібербезпеки.
Вони не лише забезпечують глибоке аналітичне опрацювання подій і
автоматизоване реагування, а й надають можливість побудувати адаптивну,
самонавчальну систему виявлення фішингових атак. Подібні підходи
формують основу проактивного кіберзахисту та будуть продемонстровані в
наступних розділах роботи як ключовий напрям сучасних технологій детекції
фішингових веб-сайтів.
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 24
Узагальнена класифікація методів виявлення фішингових атак наведена
на рис.1.6., де виділені напрями, пов’язані з поведінкою користувача та
застосування спеціалізованих програмних заходів, функціонування яких
базується на вище описаних методах.
Рис.1.6. Класифікація методів виявлення фішингових атак
Представлена класифікаційна таблиця (табл.1.2) систематизує ключові
методи виявлення фішингових ресурсів, дозволяючи порівняти їхню
ефективність, сильні та слабкі сторони. Вона показує, що традиційні підходи
— такі як чорні списки та сигнатурні методи — залишаються важливими
через свою простоту та високу швидкість обробки, але мають критичне
обмеження: нездатність ефективно протидіяти новим або модифікованим
фішинговим сайтам. Евристичні методи частково вирішують цю проблему,
оскільки здатні виявляти аномальні властивості URL або веб-сторінок, проте
їхня точність залежить від правильності побудованих правил та може
спричиняти хибні спрацьовування.
Аналіз таблиці підкреслює, що найбільш перспективними є методи,
засновані на машинному та глибинному навчанні, які здатні адаптуватися до
нових патернів і автоматично виділяти інформативні ознаки. ML- і DL-
підходи забезпечують вищу точність і стійкість до динамічно змінюваних
фішингових технік, а гібридні моделі поєднують кілька джерел інформації —
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 25
URL, контент, мережеву інформацію та візуальні дані — формуючи
комплексний механізм детекції. Саме тому ці методи розглядаються як
найбільш ефективні та будуть використані в подальших розділах
дослідження для створення системи автоматичного виявлення фішингових
веб-сайтів.
Табл.1.2. Класифікації методів детекції фішингових ресурсів
Метод Суть методу Переваги Недоліки
Порівняння
Чорні списки доменів/URL з базою Швидкість, Не виявляє нові
відомих фішингових простота, низькі FP. фішингові сайти.
ресурсів.
Сигнатурні Аналіз шаблонів HTML,
JS та поведінкових Точні для відомих Легко обходяться
методи сигнатур. атак. модифікаціями.
Евристичні Набір правил: аномалії
URL, SSL, контенту та Можуть виявляти Можливі FP,
методи поведінки. нові загрози. потребують
налаштування.
ML за ознаками Класифікація URL на Висока точність,
URL основі статистичних і придатність до Залежність від набору
структурних ознак. нових атак. ознак і даних.
ML за
контентом Аналіз DOM, форм, Глибший аналіз Висока складність і
посилань, ресурсів, SSL. структури сайту. ризикованість збору
сторінки даних.
Deep Learning LSTM/GRU аналізують
(URL) URL як послідовність Автоматичний Великі вимоги до даних
символів. feature extraction. і ресурсів.
Deep Learning CNN аналізують знімки Виявляє візуальні Потрібен рендеринг і
(зображення) екрана сайту. копії легітимних значна обчислювальна
сайтів. потужність.
Комбінація URL,
Гібридні методи контенту, мережевих та Найвища точність і Складність реалізації.
візуальних ознак. адаптивність.
1.4. Висновки
Аналіз літературних джерел показав, що фішингові атаки залишаються
однією з найпоширеніших та найнебезпечніших загроз у сфері кібербезпеки.
Їхня актуальність зумовлена постійним зростанням інтернет-користувачів та
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 26
комерційних онлайн-сервісів, що робить потенційні втрати від компрометації
облікових даних чи фінансових ресурсів надзвичайно високими. Складність
фішингових технік, таких як підробка URL, клонування сайтів та маніпуляції
сесіями, ускладнює традиційні підходи захисту та підкреслює важливість
розробки ефективних систем детекції.
Було проведено аналіз основних методів виявлення фішингових
ресурсів: чорні списки, сигнатурні та евристичні підходи, які дозволяють
швидко реагувати на відомі загрози та виявляти потенційно підозрілі сайти.
Проте класичні методи мають суттєві обмеження щодо нових,
короткоживучих або модифікованих ресурсів, що знижує їхню ефективність
у сучасних умовах кіберзагроз.
Сучасні підходи на основі машинного та глибинного навчання
демонструють значний потенціал для автоматизації та підвищення точності
виявлення фішингових сайтів. Методи ML дозволяють аналізувати
структурні та поведінкові ознаки URL і контенту, а DL-моделі — додатково
враховувати послідовності символів URL або візуальні ознаки сторінок, що
робить їх більш адаптивними та стійкими до еволюції атак. Гібридні
рішення, які поєднують кілька рівнів ознак, забезпечують найвищу точність
та мінімізують хибні спрацьовування.
Таким чином, актуальність та складність фішингових загроз
обґрунтовують необхідність використання машинного навчання як
перспективного напряму для виявлення фішингових сайтів. Саме ці підходи
будуть детально розглянуті та продемонстровані у наступних розділах
роботи, де буде побудовано практичну систему автоматичного детектування
фішингу з використанням ML моделей.
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 27
2. АНАЛІЗ ОЗНАК ВЕБ-РЕСУРСІВ ДЛЯ ВИЯВЛЕННЯ ФІШИНГУ
2.1. Постановка задачі класифікації веб-ресурсів
У межах даного дослідження фішингові веб-ресурси розглядаються як
окрема категорія шкідливих об’єктів, що імітують легітимні сайти з метою
несанкціонованого отримання конфіденційної інформації користувачів.
Виявлення таких ресурсів формулюється як задача бінарної класифікації, у
якій кожному веб-сайту з множини Х необхідно зіставити одну з міток
множини класів Y = {0, 1}, де 0 — легітимний веб-ресурс, 1 — фішинговий.
Формально задача визначається так: задано множину вхідних об’єктів
де кожен об’єкт Хі є вектором ознак
що описують структурні, контентні та мережеві властивості веб-ресурсу.
Необхідно побудувати функцію класифікації
яка на основі вектора ознак Хі повертає прогнозований клас yi ∈ Y .
Побудована модель класифікації повинна забезпечувати максимальну
ймовірність правильного віднесення ресурсу до відповідного класу при
мінімізації помилок типу FP (false positive) та FN (false negative).
До складу вхідних даних входять URL-характеристики, параметри SSL-
сертифіката, доменно-реєстраційна інформація (WHOIS), а також ознаки веб-
сторінки (структура HTML, наявність форм, перенаправлень, скриптів).
Таким чином, кожен ресурс представлено у вигляді багатовимірного
простору ознак, який може включати як числові, так і категоріальні значення.
Перед побудовою моделі ознаки проходять етап попередньої обробки:
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 28
нормалізацію, масштабування, кодування категоріальних параметрів та
обробку пропущених значень.
Особливістю задачі є дисбаланс класів, коли кількість легітимних веб-
ресурсів суттєво перевищує кількість фішингових. Це впливає на здатність
моделі адекватно навчатися і може призвести до її зміщення у бік
домінуючого класу. У зв’язку з цим задача формулюється з урахуванням
додаткових вимог щодо балансування даних, що можуть включати методи
oversampling, undersampling або модифікацію ваг класів під час навчання.
Для оцінювання ефективності моделі передбачається використання
низки метрик якості класифікації. Оскільки у випадку фішингових атак
критичними є помилки FN (невиявлений фішинговий сайт) та FP (блокування
легітимного ресурсу), базові метрики accuracy є недостатніми. Тому як
основні використовуються precision, recall, F1-score, а також показник ROC-
AUC, що відображає здатність моделі відрізняти два класи на різних рівнях
прийняття рішень.
У рамках практичної реалізації задачі також визначаються системні
вимоги до моделі: здатність функціонувати в режимі реального часу,
масштабованість, інтегрованість у SIEM/SOAR-середовище, адаптивність до
появи нових типів фішингових доменів та низька обчислювальна вартість
інференсу. З огляду на це необхідно відібрати такі алгоритми машинного та
глибинного навчання, які відповідають вищезазначеним критеріям.
Отже, постановка задачі класифікації веб-ресурсів полягає у визначенні
множини ознак, формалізації процесу віднесення ресурсів до певного класу,
виборі метрик якості та врахуванні специфічних особливостей доменної
області. Це створює основу для подальшого етапу — формування датасету,
побудови моделі машинного навчання та експериментальної перевірки її
ефективності.
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 29
2.2. Вибір ознак веб-ресурсів та їх характеристика
Вибір релевантних ознак (features) є ключовим етапом у побудові
моделі класифікації веб-ресурсів, оскільки саме набір формальних
характеристик URL та його оточення визначає здатність алгоритму точно
розрізняти фішингові та легітимні сайти. Ознаки повинні відображати
структурні, технічні та поведінкові властивості веб-ресурсу й одночасно бути
обчислюваними в автоматичному режимі. Їх правильний добір підвищує
точність моделі та зменшує обчислювальні витрати, що особливо важливо
при застосуванні систем реального часу.
Для побудови моделі на основі класичних алгоритмів машинного
навчання, призначеної для виявлення зловмисних веб-ресурсів, необхідно
використовувати набір даних, що містить описові характеристики кожного
ресурсу. Одним із ключових підходів є аналіз URL-адреси веб-ресурсу (англ.
Uniform Resource Locator, URL) — стандартизованої адреси певного ресурсу,
яка може містити числові та категоріальні ознаки для навчання моделі.
Приклади структури URL та її елементів наведено на рис. 2.1.
Рис.2.1. Типова структура URL-адрес веб-ресурсів
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 30
У класифікації фішингових ресурсів виділяють кілька груп ознак:
• лексичні (URL-based);
• HTML/DOM-структурні;
• мережеві та WHOIS-дані;
• сертифікаційні (SSL);
• контентно-поведінкові.
Кожна з цих груп відображає різні аспекти роботи веб-сторінки та
дозволяє компенсувати обмеження інших категорій. Наприклад, URL-
патерни чудово підходять для швидкого виявлення підозрілих доменів, але
можуть бути обмануті ретельно підготовленими атаками; натомість SSL-
характеристики та доменні метадані важче підробити, хоча вони потребують
більш тривалого часу збору.
Аналіз лексичних (URL-based) структур. Лексичні ознаки є одними з
найбільш інформативних та легкодоступних, оскільки аналізується лише
текстова структура URL. До них належать: довжина домену та шляху,
кількість спеціальних символів, використання підозрілих TLD (.tk, .ga),
наявність IP-адрес у рядку URL, надмірна кількість піддоменів, наявність
слів, пов’язаних із маскуванням (login, secure, verify). Такі ознаки виявляють
спроби створення “довірливих” URL, які імітують легітимні ресурси,
використовуючи складні або навмисно заплутані конструкції.
Наведемо приклади підозрілих TLD (.tk, .ga, .ml, .cf, .gq) — це доменні
зони верхнього рівня (Top-Level Domains), які часто асоціюються з
фішинговими, шахрайськими або малонадійними веб-ресурсами. Їх
називають “підозрілими” не тому, що вони заборонені чи небезпечні самі по
собі, а тому що статистика використання показує: фішери значно частіше
реєструють домени саме в цих зонах:
1. безкоштовна або дуже дешева реєстрація. Наприклад, домени .tk
(Tokelau), .ga (Gabon), .ml (Mali), .cf (Central African Republic), .gq
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 31
(Equatorial Guinea) часто реєструвалися через сервіс Freenom, де
користувачі могли отримувати домен безкоштовно. Це зробило їх
привабливими для зловмисників, які створюють ботнети або
одноразові фішингові сторінки;
2. відсутність жорсткої перевірки під час реєстрації. Реєстратори таких
доменів часто не вимагають перевірки особистості, компанії або
документів. Тобто зловмисник може створити десятки доменів за
кілька хвилин;
3. низькі витрати на “одноразові” атаки. Фішингові домени живуть у
середньому від кількох годин до кількох днів. Тому зловмисникам
невигідно купувати дорогі домени (.com, .org) — вони віддають
перевагу дешевим варіантам.
Приклади підозрілих TLD наведені в табл.2.1.
Табл.2.1. Особливості застосування підозрілих Top-Level Domains для
TLD Країна Особливості використання
.tk Tokelau Найпопулярніший безкоштовний домен, масово
використовувався у фішингу.
.ga Gabon Безкоштовні домени, часто фігурують у ботнетах.
.ml Mali Мінімальна перевірка, часто використовується у
фішингових кампаніях.
.gq Equatorial Guinea Безкоштовні домени, висока концентрація
шкідливого контенту.
.cf Central African Доступний безкоштовно, погана репутація у сфері
Republic кіберзагроз.
Фішингові сайти часто використовують IP замість доменного імені,
щоб приховати свою справжню адресу або уникнути реєстрації домену.
Приклади:
1. http://192.168.10.24/login/verify.html
2. http://45.83.127.201/secure-update/
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 32
3. https://203.0.113.77/paypal-login/
Такі URL одразу виглядають підозріло, оскільки легітимні компанії
майже ніколи не використовують IP-адреси у відкритих посиланнях.
Надмірна кількість піддоменів. Атаки часто будуються за принципом:
легітимний бренд → додано багато піддоменів → виглядає як справжній
ресурс.
Приклади:
1. https://paypal.account.security.verify.update.center.info/login
2. http://google.com.secure.verify.user.auth-update.xyz/
3. https://bank.ua.verify.login.customer.secure-check.net/
Такі довгі ланцюжки піддоменів використовуються для маскування
справжнього домену (який зазвичай знаходиться в самому кінці перед TLD).
Наявність слів, пов’язаних із маскуванням. Ключові слова в URL, які
намагаються викликати довіру або створити ілюзію безпеки:
• login
• secure
• verify
• update
• password
• account
Приклади:
1. https://secure-paypal.com.login.verify-user.info/
2. http://microsoft-update-account.secure-auth.xyz/
3. https://bank-ua.verify-login.com/security-check/
Усі три URL використовують “довірливі” слова, щоб змусити
користувача повірити, що він переходить до перевірки акаунту або
підтвердження безпеки.
Лист
Змін. Лист № докум. Підпис ЧДТУ.25.24251.004 ПЗ
Дата 33
Аналіз HTML/DOM-структур. Одним із важливих напрямків у
виявленні фішингових веб-ресурсів є аналіз доменних та мережевих
характеристик сайту. До таких ознак відносяться дата реєстрації домену,
країна реєстрації, наявність прихованих даних WHOIS (Privacy Protection),
IP-геолокація, використання CDN або сервісів захисту на зразок Cloudflare.
Ці характеристики дозволяють виявити ресурси, які існують короткий час
або мають нетипові параметри, що характерно для фішингових атак.
Дата реєстрації домену (Domain Age) є однією з найбільш
інформативних ознак. Фішингові сайти зазвичай існують від кількох годин
до кількох днів, а їх домени мають “молоду” історію. Наприклад, якщо домен
secure-login-paypal.tk був зареєстрований 3 дні тому, а сайт уже запущений із
формою авторизації, це значно підвищує ймовірність фішингової активності.
На противагу, легітимні банки або великі сервіси зазвичай використовують
домени, що існують роками.
Країна реєстрації домену та приховані дані WHOIS також дають
важливу інформацію. Часто фішингові ресурси реєструють домени у країнах
із низьким регуляторним контролем або використовують сервіси Privacy
Protection для приховування власника. Наприклад:
• http://update-account-secure.ga — зареєстрований у Габоні з
прихованими контактними даними.
• https://login-microsoft.cf — домен у Центральноафриканській
Республіці, власник захищений сервісом приватності.
IP-геолокація та використання CDN/Cloudflare дозволяють оцінити,
звідки фізично хоститься ресурс та чи застосовуються сервіси для
маскування його справжньої інфраструктури. Фішингові сайти часто
розміщують свої сервери у країнах із слабким контролем або
використовують CDN для швидкої зміни IP та приховування місця
розташування.
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 34
Приклад:
• IP 45.83.127.201 розташований у Нідерландах і обслуговується через
Cloudflare, маскуючи оригінальний сервер у іншій країні.
Ще однією ознакою є частота змін nameserver-ів та налаштувань
DNS. Часті зміни вказують на спроби приховати реальне розташування
ресурсу або уникнути блокування. Наприклад: домен secure-paypal-login.tk
змінив свій nameserver тричі за тиждень — це типовий патерн для
тимчасових фішингових сайтів. Поєднання цих ознак дозволяє компенсувати
обмеження суто лексичного аналізу URL та підвищити точність класифікації
при використанні методів машинного навчання.
Таким чином, аналіз доменної та мережевої інформації забезпечує
комплексне оцінювання ризику веб-ресурсу, що важливо для створення
адаптивних моделей виявлення фішингових атак. Використання цих ознак у
поєднанні з лексичними, контентними та поведінковими характеристиками
дозволяє побудувати більш надійну систему класифікації веб-сайтів.
Зібрані дані перетворюють у числові та категоріальні ознаки, які
подаються на вхід алгоритмів машинного навчання:
o domain_age_days — кількість днів від реєстрації домену;
o is_privacy_protected — 0/1 (чи ввімкнено Privacy Protection);
o ip_country_risk — бінарна ознака або рейтинг ризику на основі
геолокації;
o dns_change_count — кількість змін nameserver-ів за певний період;
o uses_cdn — 0/1 (чи використовується Cloudflare/CDN).
Ці ознаки потім комбінуються з URL-лексичними, HTML/DOM та
поведінковими ознаками для побудови комплексної моделі класифікації
фішингових сайтів.
У реальних системах аналіз виконується автоматично:
o за допомогою Python-бібліотек (python-whois, dnspython, ipwhois,
requests) для збору та обробки даних;
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 35
o для потокової перевірки сайтів у реальному часі інтегрують ці
запити у ML-пайплайн.
Автоматизація дозволяє оперативно оновлювати ознаки та виявляти
нові фішингові сайти ще до того, як вони завдадуть шкоди користувачам.
SSL-сертифікати. SSL-сертифікати є важливим компонентом сучасної
інфраструктури веб-безпеки, оскільки забезпечують шифрування переданих
даних та підтверджують автентичність веб-ресурсу. Кожен сайт, що
використовує HTTPS, повинен мати чинний SSL/TLS-сертифікат, виданий
довіреним центром сертифікації (Certificate Authority, CA). У контексті
виявлення фішингу такі сертифікати виступають джерелом додаткових
метаданих, які можуть вказувати на рівень довіри до ресурсу. Хоча сам факт
наявності HTTPS більше не є гарантією безпеки, криптографічні параметри
сертифіката можуть допомогти автоматизованим системам машинного
навчання визначити потенційно зловмисні сайти.
Одним із ключових параметрів є тип SSL-сертифіката. Розрізняють
три рівні перевірки:
• Domain Validation (DV);
• Organization Validation (OV);
• Extended Validation (EV).
Більшість фішингових сайтів використовують саме DV-сертифікати,
оскільки вони видаються автоматично, швидко та без перевірки юридичної
особи. Це дозволяє зловмисникам дешево створювати HTTPS-ресурси, що
виглядають «захищеними» в очах недосвідчених користувачів. OV та EV
сертифікати передбачають перевірку компанії, однак їх практично не
використовують для фішингу через високу вартість і складність отримання.
Іншою важливою ознакою є строк дії сертифіката. Фішингові веб-
сайти зазвичай існують недовго — від кількох годин до кількох днів. Тому
вони часто використовують сертифікати з мінімальним строком чинності або
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 36
не продовжують їх після закінчення. Для детекції важливим є аналіз полів
Valid From та Valid To, а також розрахунок certificate age — часу, який минув
з моменту видачі сертифіката. Дуже «свіжі» сертифікати, використані на
сайтах високого ризику, можуть свідчити про фішингову активність.
Крім тривалості, аналітики досліджують сертифікаційний ланцюжок
довіри. Легітимні ресурси зазвичай використовують сертифікати, видані
популярними CA (Let’s Encrypt, DigiCert, GlobalSign), у той час як фішингові
сайти нерідко генерують самопідписані сертифікати (self-signed) або
використовують сертифікати від менш відомих, низькодовірених центрів.
Наявність self-signed сертифікату — майже гарантована ознака злочинного
сайту, оскільки такі сертифікати браузери не визнають довіреними.
Ще однією технічною характеристикою є FQDN, що вказаний у
сертифікаті, тобто поле Common Name (CN) та список Subject Alternative
Names (SAN). Фішингові сайти часто використовують схожі, але підроблені
доменні імена, наприклад:
• paypa1.com;
• faceb00k-verification.net;
• google.accounts-login.secure-auth.com.
Якщо CN не співпадає з фактичним доменом у URL або містить
підозрілі модифікації, це однозначно може бути ознакою підробки.
Алгоритми ML активно використовують такі невідповідності як індикатор
ризику.
Криптографічні параметри сертифіката також несуть цінну
інформацію. Наприклад, фішингові ресурси часто використовують
сертифікати з короткими ключами або застарілими алгоритмами
шифрування, що може свідчити про дешевість або автоматичність створення
ресурсу. Аналіз параметрів, таких як алгоритм підпису (SHA-256, SHA-1),
довжина публічного ключа (2048 bit, 4096 bit) та версія протоколу TLS (TLS
1.0/1.1 — застарілі), дозволяє доповнити профіль ризику сайту.
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 37
Узагальнені відомості про SSL-ознаки для виявлення фішингових веб-
сайтів наведені в табл.2.2.
Табл.2.2. Таблиця SSL-ознак для виявлення фішингових веб-сайтів
Ознака (SSL
Feature) Опис Переваги Недоліки / Обмеження
Рівень перевірки Дає змогу відрізняти Наявність DV не
Тип сертифіката власника домену легітимні ресурси
(OV/EV) від гарантує фішинг; багато
(DV / OV / EV) перед видачею фішингових (переважно легітимних сайтів теж
сертифіката. DV). використовують DV.
Деякі легітимні ресурси
Строк дії Час між видачею Короткий термін часто
сертифіката та завершенням свідчить про фішинг; теж використовують
(validity period) чинності. easy to track короткотермінові
automatically. сертифікати (Let’s
Encrypt – 90 днів).
Вік сертифіката Час від моменту Ефективно виявляє Нові легітимні сайти
(certificate age) видачі до «свіжі» фішингові також матимуть
моменту аналізу. домени. «молодий» сертифікат.
Організація, що Фішингові сайти часто
Сертифікаційний видала Виявлення self-signed та використовують Let’s
центр (CA) сертифікат. низькодостовірних CA. Encrypt, що ускладнює
аналіз.
Алгоритм Можна виявляти Більшість зловмисників
шифрування SHA-256, RSA, застарілі або використовують сучасні
(Signature ECDSA, тощо. нестандартні алгоритми, алгоритми, тому ознака
Algorithm) характерні для фішингу. працює в комбінації з
іншими.
Відповідність Чи співпадає
CN/SAN домен у Дозволяє виявляти Деякі фішингові сайти
фактичному сертифікаті з модифіковані й налаштовують коректні
домену доменом сайту. підроблені домени. CN/SAN.
Версія TLS (1.0–1.3) Рівень протоколу Старі версії TLS — Не всі фішингові сайти
безпеки. індикатор небезпеки. використовують
застарілі TLS.
У системах виявлення фішингу SSL-метадані використовуються у
поєднанні з іншими ознаками — лексичними, структурними, мережевими.
Наприклад, алгоритм може одночасно аналізувати: довжину URL, кількість
піддоменів, доменний вік та алгоритм шифрування в SSL. Комбінація цих
ознак дозволяє підвищити точність класифікації, особливо у випадках, коли
Лист
Змін. ЧДТУ.25.24251.004 ПЗ
Лист № докум. Підпис Дата 38
фішингові сайти ретельно копіюють легітимний дизайн, але не можуть
відтворити правильну сертифікаційну інфраструктуру.
Важливо й те, що SSL-показники добре автоматизуються: інформація
про сертифікат доступна через TLS-handshake або через інструменти like
OpenSSL, Python-бібліотеки (ssl, cryptography), або навіть API веб-браузера.
Це робить їх особливо корисними для інтеграції в ML-пайплайни та системи
типу SIEM/SOAR, де виявлення підозрілих доменів повинно відбуватися в
режимі реального часу.
Контентно-поведінкові ознаки. Контентні ознаки охоплюють
характеристики внутрішнього наповнення веб-сайту — HTML-код, DOM-
структуру, стилі, скрипти, форми введення та мультимедійні елементи.
Фішингові ресурси часто створюються швидко, тому їх HTML-код має
типові недоліки: неякісні копії стилів, відсутні або некоректні метадані,
підвантаження елементів з різних сторонніх доменів, примітивні форми
логіну з мінімальним JavaScript. Наприклад, фішинговий сайт може містити
форму «Login», яка насправді надсилає дані на IP-адресу або сторонній
домен, що не відповідає бренду. Аналіз структури HTML дозволяє
автоматично виявляти невідповідності між заявленим сайтом та його
реальним контентом.
Ознаки підозрілих форм та JavaScript-скриптів. Фішингові сайти
зазвичай містять елементи, які отримують особисті дані користувача —
форми введення email-адреси, пароля, номера картки, коду підтвердження
тощо. Частими ознаками є використання незахищених методів передачі
даних (GET), відправлення введених значень на сторонні сервери або через
приховані скрипти. Також широко застосовуються JavaScript-скрипти, які
перехоплюють натискання клавіш (keylogging), перенаправляють
користувача після введення даних або динамічно завантажують фішинговий
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 39
контент із зовнішніх джерел. Такі особливості легко виявляються за
допомогою статичного та динамічного аналізу JavaScript.
Контентна стилістика та семантичні ознаки. Фішингові сайти часто
містять неприродні тексти, граматичні помилки, некоректні переклади
інтерфейсу, грубі спрощення або нетипову стилістику. Це пов'язано з тим, що
атаки запускаються швидко, а злочинці економлять на якісному UX/UI
дизайні. Наприклад, сторінка може містити текст “Your acount will be
disabled, please verify immediatelly”, що є типовим маркером фішингових
ресурсів. Такі текстові аномалії можуть бути оброблені за допомогою NLP-
методів, TF-IDF, word embeddings або сучасних трансформерів, що збільшує
точність моделей.
Поведінкові ознаки: редиректи, автопереадресації та приховані
переходи. Поведінкові ознаки характеризують дії сайту під час взаємодії з
користувачем. Фішингові сторінки можуть виконувати миттєві та приховані
перенаправлення (redirects), відкривати додаткові вкладки або завантажувати
нові ресурси через скрипти. Частими є ланцюжки редиректів: користувач
переходить за одним URL, а реально потрапляє на інший домен. Подібна
поведінка характерна для фішингових і шкідливих сторінок, оскільки
дозволяє приховати справжній сервер або перенаправити жертву на сторінку
крадіжки credential-ів. Кількість редиректів, їх структура та походження
доменів є сильними поведінковими індикаторами.
Часові характеристики та взаємодія з користувачем. Поведінкові
ознаки можуть включати аналіз часу завантаження сторінки, частоти
оновлення контенту, динаміки роботи скриптів, а також нестандартної
активності після введення даних користувачем. Наприклад, фішингові форми
можуть відправляти запити одразу після втрати фокусу поля вводу, або сайт
може підмінювати URL-адресу після певної взаємодії. Багато фішингових
сторінок також демонструють різну поведінку в залежності від User-Agent
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 40
або IP-адрес користувача, приховуючи шкідливий код при виявленні ботів чи
сканерів безпеки.
Комбінування контентних та поведінкових ознак у ML-моделях. У
сучасних системах виявлення фішингу контентні та поведінкові ознаки
використовуються разом, формуючи високоточні векторні представлення
сайтів. Поєднання HTML-аналізу, поведінкових логів, JavaScript-дій та
семантики текстів дозволяє моделі будувати складні залежності, які важко
підробити повністю. Особливо ефективними є методи ансамблів,
автоенкодери, GNN-моделі та трансформери для текстового аналізу. Такий
підхід суттєво покращує якість класифікації у порівнянні з методами, що
базуються виключно на URL-ознаках.
Таким чином, правильно побудований набір ознак повинен бути
комплексним, різнорівневим і стійким до обходу атак.
2.3. Розроблення та обґрунтування архітектури системи виявлення
фішингових сайтів
Методи контролю веб-безпеки, що базуються на машинному навчанні з
учителем, покликані автоматизувати розпізнавання шкідливих вебресурсів
шляхом аналізу вже маркованих URL-адрес. Модель навчається відрізняти
легітимні сайти від фішингових, а після тренування здатна класифікувати
нові домени та сторінки за їхнім технічним та поведінковим профілем.
Архітектура системи створюється як набір взаємопов’язаних модулів,
кожен з яких відповідає за окремий етап опрацювання вебресурсів: від збору
URL-адрес до оцінювання ризику і прийняття рішень. Такий підхід дозволяє
інтегрувати різнорідні джерела інформації, працювати з великими даними та
забезпечити адаптивність системи до нових фішингових технік (рис. 2.2).
Розглянемо основні етапи, які супроводжують процес формування та
тренування моделі машиного навчання.
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 41
Рис.2.2. Архітектура системи обробки даних для побудови моделі ML
Збір та акумулювання вебданих. На початковому етапі система
отримує дані з різних джерел: відкритих репозиторіїв фішингових URL
(PhishTank, OpenPhish), журналів серверів, модулів моніторингу трафіку,
браузерних плагінів або системної телеметрії. Разом із самими URL можуть
збиратися такі атрибути: дата виявлення, доменна зона, спосіб
перенаправлення, сертифікат SSL, структура HTML-сторінки, заголовки
HTTP та дані про поведінку сайту при завантаженні.
Очистка даних та приведення до єдиної структури. Другий модуль
зосереджений на перетворенні необроблених вебданих у придатний для
аналізу формат. Виконується:
• видалення дублікатів URL;
• корекція неправильно зібраних або неповних записів;
• кодування категоріальних ознак (тип домену, протокол, статус
сертифіката);
• формування числових параметрів (довжина URL, кількість
піддоменів, наявність підозрілих символів);
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 42
• стандартизація та масштабування значень.
Оскільки фішингових сайтів у реальних даних значно менше, ніж
легітимних, тут застосовуються методи балансування класів: SMOTE,
комбіноване oversampling/undersampling або генеративні моделі для
синтетичних даних.
Інженерія ознак та підсилення інформативності. На третьому рівні
формується розширений набір характеристик, що допомагає моделі більш
точно виявляти ознаки фішингу. До таких ознак можуть належати:
• аналіз токенів URL: наявність цифр, спеціальних символів,
довжина доменного імені;
• параметри безпеки: валідність SSL-сертифіката, тип шифрування;
• поведінкові характеристики сторінки: кількість зовнішніх
скриптів, автоматичні переадресації, завантаження прихованих
елементів;
• вміст сторінки: співвідношення тексту та медіа, стоп-слова
фішингових шаблонів, підроблені форми входу;
• історія домену (WHOIS): дата створення домену, країна
реєстрації, частота змін DNS-записів.
Такі додаткові ознаки підвищують здатність алгоритму розпізнавати
навіть нові фішингові сайти, які не присутні в чорних списках.
Навчання та оптимізація моделей. Основний етап обробки включає
навчання моделей машинного навчання для класифікації URL-адрес. До
цього блоку можуть входити:
• моделі на основі дерев (Random Forest),
• градієнтне підсилення (XGBoost, LightGBM),
• алгоритми на основі регресії або наївного Байєса для швидкого
прототипування.
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 43
Паралельно здійснюється:
• підбір гіперпараметрів;
• крос-валідація;
• регуляризація для уникнення перенавчання;
• аналіз важливості ознак.
У результаті система отримує стійку модель, здатну відокремлювати
фішингові сайти з високою точністю.
Класифікація нових URL-адрес і прийняття рішень. На цьому рівні
кожен новий вебресурс оцінюється на предмет ризику. Модель повертає
ймовірність того, що сайт є фішинговим. На основі отриманого балу система
може:
• дозволити перехід користувача,
• показати попереджувальне повідомлення,
• автоматично заблокувати сайт,
• передати адресу в аналітичний центр для ручної перевірки.
Додатково застосовуються адаптивні пороги, залежно від контексту
(критичність ресурсу, профіль користувача, корпоративна політика безпеки).
Зберігання даних та ведення історії аналізів. Система використовує
високопродуктивні сховища (SQL/NoSQL) для збереження:
• сирих URL-адрес,
• набору оброблених ознак,
• результатів класифікації,
• журналів рішень та подій.
Таке зберігання забезпечує готовність для повторного навчання
моделей, відстеження помилкових спрацьовувань та проведення
довготривалої аналітики.
Лист
Змін. Лист № докум. Підпис ЧДТУ.25.24251.004 ПЗ
Дата 44
Моніторинг роботи моделі та відстеження змін у вебсередовищі.
Оскільки фішинг постійно еволюціонує, система включає модуль оцінювання
ефективності моделей на нових даних. Він відстежує:
• падіння точності,
• зміни у структурі URL (data drift),
• появу нових шаблонів атак,
• зростання частки невідомих доменів.
За потреби модель пропонується перевчити або оновити ознаковий
простір.
Інтерфейс безпеки та аналітичні панелі. Для аналітиків кібербезпеки
формується набір інструментів для перегляду:
• підозрілих URL-адрес,
• оцінок ризику та причин класифікації,
• географії фішингових доменів,
• найбільш впливових ознак моделі.
Це дозволяє не лише автоматично блокувати атаки, а й глибше
розуміти тенденції розвитку фішингових кампаній.
Інтеграція з системами кіберзахисту. Система може обмінюватися
інформацією з:
• корпоративними firewall,
• SIEM-платформами,
• браузерними захисними рішеннями,
• сервісами перевірки SSL та DNS.
Завдяки цьому забезпечується повний цикл реагування на шкідливі
вебресурси.
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 45
Масштабованість та продуктивність аналізу. Оскільки кількість
нових доменів та URL зростає щоденно, архітектура буде потребувати
масштабування. Паралельні обчислення, хмарне розгортання та розподілені
середовища дозволяють обробляти великі масиви даних та оперативно
тестувати нові моделі без зниження продуктивності.
Дослідницький аналіз даних (EDA). Для глибшого розуміння структури
вебданих використовують EDA. Він допомагає:
• виявити приховані патерни у фішингових URL;
• проаналізувати повторювані схеми дій зловмисників;
• знайти кореляції між ознаками сторінки;
• визначити проблеми в даних, які можуть погіршувати якість
моделі.
Статистичні методи, графічні візуалізації та порівняльний аналіз
дозволяють сформувати обґрунтовані рішення щодо вибору моделей та
ознак.
Таким чином, розглянута архітектура та вся екосистема побудови
моделі — від підготовки даних і векторизації до вибору алгоритмів,
оптимізації параметрів та оцінювання результатів — демонструють цілісний і
продуманий підхід до виявлення фішингових сайтів. Узгоджена робота всіх
компонентів забезпечує надійну аналітику, стабільну продуктивність та
можливість масштабування, що підтверджує ефективність обраної
методології й її придатність для практичних задач кібербезпеки.
2.4. Висновки
В даному розділі було сформульовано загальну постановку задачі
класифікації веб-ресурсів, яка полягає у точному розмежуванні фішингових і
легітимних сайтів на основі аналізу їх структурних, мережевих та
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 46
поведінкових характеристик. Наголошено, що проблема має прикладну
важливість у сфері кібербезпеки, оскільки фішингові атаки є одним із
найбільш поширених інструментів компрометації користувачів. Визначення
ключових цілей — підвищення точності, зниження кількості хибних
спрацьовувань та забезпечення швидкої обробки — стало фундаментом для
побудови подальшої методології розроблення моделі.
Під час аналізу ознак веб-ресурсів було встановлено, що якість
класифікації значною мірою залежить від коректного вибору та оброблення
інформативних характеристик. У роботі виділено п’ять ключових груп ознак:
лексичні, HTML/DOM-структурні, мережеві та WHOIS-параметри,
SSL/сертифікаційні показники та контентно-поведінкові індикатори. Кожна з
цих груп несе унікальну діагностичну цінність, що дозволяє моделі
формувати багатовимірне уявлення про веб-ресурс і точніше виявляти
аномалії, властиві фішинговим сайтам.
Розроблена архітектура системи виявлення фішингу базується на
поєднанні сучасних методів машинного навчання, засобів попередньої
обробки та механізмів оцінювання якості прогнозування. Було обґрунтовано
вибір векторизаційних підходів, оптимальних алгоритмів класифікації та
параметрів їх налаштування, що забезпечує узгоджену роботу всіх
компонентів. Запропонована система є гнучкою, масштабованою та
придатною для інтеграції у прикладні рішення з кібербезпеки.
Таким чином, комплексний підхід, представлений у розділі, охоплює
повний цикл побудови системи виявлення фішингових веб-ресурсів — від
формування постановки задачі до створення цілісної архітектури.
Врахування різнорідних груп ознак та використання сучасних моделей
машинного навчання створює надійну основу для високоточного визначення
фішингової активності. Це дозволяє забезпечити підвищену ефективність
систем захисту та сприяє зниженню ризиків кіберзагроз у сучасному
інформаційному середовищі.
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 47
РОЗДІЛ 3. РЕАЛІЗАЦІЯ ТА АНАЛІЗ МОДЕЛЕЙ ML ДЛЯ
ВИЯВЛЕННЯ ФІШИНГОВИХ ВЕБ-САЙТІВ
3.1. Аналіз та опис використовуваного датасету
Використаний у дослідженні датасет отриманий із відкритого джерела
Kaggle (“Phishing Website Detection”), має розмірність (11055 × 32) і містить
11055 записів з 31 ознакою та цільовою функцією, Це один із найбільш
популярних наборів даних у сфері дослідження фішингових вебресурсів,
який містить сукупність спеціально відібраних характеристик, що описують
поведінкові, технічні та структурні ознаки вебсайту. Така структура
забезпечує достатній обсяг інформації для побудови моделей машинного
навчання та проведення порівняльного аналізу алгоритмів (рис.3.1.)
Рис.3.1. Структура датасета Phishing Website Detection
Важливою властивістю цього датасету є його збалансованість, яка
забезпечує коректне навчання класифікаторів без домінування одного з
класів (рис.3.2)
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 48
Рис.3.2. Ілюстрація балансу цільової функції датасета
Оскільки завдання виявлення фішингових сайтів є критично чутливим
до хибних рішень, збалансований розподіл прикладів сприяє формуванню
моделей, стійких до переобучення та схильних до виявлення як безпечних,
так і шкідливих ресурсів.
Особливістю набора даних є те, що більшість ознак у ньому подані у
дискретному форматі –1, 0, 1, що значно полегшує обробку. Значення –1 у
таких ознаках зазвичай вказує на негативну або небезпечну характеристику
(наприклад, наявність перенаправлень, підозрілий домен, маніпуляції з URL).
Значення 1 відповідає нормальній, безпечній або очікуваній поведінці сайту.
Значення 0 позначає нейтральний або проміжний стан, коли характеристику
неможливо однозначно віднести до безпечної чи небезпечної. Такий тип
інженерії ознак дозволяє звести велику кількість гетерогенних параметрів до
уніфікованої числової форми.
Датасет був сформований в результаті автоматичного парсингу сайтів,
а не шляхом аналізу сирих HTML-сторінок. У процесі парсингу вебресурсів
було витягнуто відповідні параметри (структуру URL, поведінку домену,
ознаки безпеки, наявність редиректів, скриптів тощо), після чого кожна
ознака була перетворена на категоріальний показник –1, 0 або 1. Така форма
представлення значно спрощує побудову моделей, оскільки моделі
машинного навчання можуть одразу працювати з готовими, чистими та
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 49
стандартизованими даними без необхідності додаткової попередньої
обробки.
Наведемо опис основних груп ознак, використаних у датасеті (табл.
3.1).
Табл.3.1. Опис ознак датасету Phishing Website Detection
Ознака Опис (призначення)
having_IP_Address Визначає, чи містить URL адресу у вигляді IP замість
доменного імені (часта ознака фішингу).
URL_Length Довжина URL; надмірно довгі адреси часто вказують на
спроби приховати шкідливі елементи.
Shortining_Service Показує, чи використовує сайт сервіси коротких URL (bit.ly,
tinyurl), що може приховувати справжній домен.
having_At_Symbol Перевіряє наявність символу “@” у URL — шахраї
використовують його для перенаправлення.
double_slash_redirecting Виявляє другий “//” у URL (не на початку), що може
означати приховане перенаправлення.
Prefix_Suffix Перевіряє використання дефіса “-” у домені, що часто
зустрічається у фішингових підробках.
having_Sub_Domain Кількість піддоменів; надмірна вкладеність може свідчити
про підроблений сайт.
SSLfinal_State Стан SSL-сертифіката: валідний, підозрілий або відсутній.
Domain_registeration_length Термін дії домену; фішингові домени зазвичай реєструються
на короткий період.
Favicon Перевірка відповідності favicon основному домену. Підміна
може свідчити про фішинг.
port Аналіз нестандартних відкритих портів, які не характерні
для звичайних веб-сайтів.
HTTPS_token Виявляє фальшиве використання слова “https” у домені для
введення користувача в оману.
Request_URL Визначає, чи завантажуються ресурси (зображення,
скрипти) з іншого домену.
URL_of_Anchor Аналізує посилання <a>: чи ведуть вони на довірені або
підозрілі домени.
Links_in_tags Вміст тегів <meta>, <script>, <link> щодо зовнішніх
ресурсів.
SFH “Server Form Handler”: куди надсилаються дані форм — на
довірений домен чи сторонній/порожній URL.
Submitting_to_email Виявляє використання “mailto:” для відправки даних форми,
типова ознака фішингових сторінок.
Abnormal_URL Домен не відповідає офіційному — невідповідність WHOIS,
DNS або структури URL.
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 50
Ознака Опис (призначення)
Redirect Кількість перенаправлень; фішингові ресурси часто
перенаправляють жертву.
on_mouseover Маніпуляції через JavaScript (заміна адреси в статусному
рядку при наведенні).
RightClick Блокування правої кнопки миші, щоб приховати вихідний
код або елементи сторінки.
popUpWidnow Перевіряє використання нав’язливих pop-up вікон.
Iframe Використання iframe для приховування вмісту або підміни
сторінки.
age_of_domain Вік домену, визначений за WHOIS; молоді домени частіше
використовуються у фішингу.
DNSRecord Наявність коректних DNS-записів; їх відсутність часто
свідчить про шахрайський сайт.
web_traffic Рівень трафіку домену (наприклад, дані Alexa); низький
трафік — потенційний ризик.
Page_Rank Рейтинг веб-сторінки; фішингові сайти зазвичай мають
низький PageRank.
Google_Index Чи проіндексований сайт Google. Непроіндексовані домени
частіше є фішинговими.
Links_pointing_to_page Кількість зовнішніх посилань на сторінку; фішингові сайти
майже не мають беклінків.
Statistical_report Порівняння з відомими чорними списками фішингових
доменів.
Result Цільова змінна: 1 – фішинговий сайт, -1 – легітимний сайт
(іноді 0 – підозрілий).
Окремої уваги потребує спосіб формування ознак у використаному
датасеті. Оскільки всі атрибути отримані шляхом попереднього парсингу
веб-сторінок та автоматизованої обробки URL, важливо враховувати, що
якість і точність таких ознак безпосередньо залежить від застосованих
інструментів збору даних. Для оцінки фішингових сайтів часто
використовуються евристичні правила (наприклад, наявність символу "@",
кількість піддоменів, показники SSL), які можуть давати похибки, якщо веб-
ресурс побудований із нетиповою структурою. Тому під час аналізу
необхідно усвідомлювати, що датасет хоч і стандартизований, проте
створений за допомогою попереднього автоматичного аналізу, який має
певні обмеження.
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 51
Датасет характеризується достатньою репрезентативністю, оскільки
включає понад десять тисяч URL різного типу, що дозволяє тренувати
моделі, здатні узагальнювати інформацію. Проте він не включає додаткові
ознаки, які характерні для сучасних фішингових кампаній, такі як
поведінкові сигнали або аналіз контенту HTML-сторінки. Незважаючи на це,
набір даних добре підходить для моделювання задачі класифікації на основі
структурних і технічних характеристик URL. Для реального застосування це
означає, що модель, тренована на такому датасеті, буде ефективною у
виявленні класичних шаблонів фішингу, проте потребуватиме розширення
ознак при використанні в динамічних середовищах.
Проведений аналіз дозволяє розглядати датасет не лише як завершене
джерело для тренування моделей, але і як основу для подальшого
розширення. Зокрема, доцільним є додавання ознак, пов’язаних із часом
відповіді серверу, структурою DOM-дерева, наявністю підозрілих JavaScript-
скриптів, даних SSL-сертифіката та поведінкових характеристик користувача
під час взаємодії з сайтом. Таке розширення дозволило б сформувати більш
комплексний набір ознак, який краще відображав би сучасні техніки
фішингу. Таким чином, аналіз датасету демонструє його практичну цінність,
проте одночасно вказує на напрямки розвитку та можливості створення
більш універсальної системи виявлення фішингових ресурсів.
3.2. Побудова та обгрунтування архітектури системи ML для обробки
веб-ресурсів
Архітектура системи машинного навчання для виявлення фішингових
вебсайтів повинна забезпечувати повний цикл обробки даних: від отримання
сирих URL-адрес до видачі класифікаційного результату в режимі,
наближеному до реального часу. Основою є побудова чітко структурованого
конвеєра, який включає:
• модулі парсингу сайту;
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 52
• видобування ознак;
• попередньої обробки даних;
• навчання та верифікація моделі.
Такий підхід дозволяє ізолювати кожен етап і забезпечити можливість
оновлення окремих компонентів без зміни всієї системи, що є критично
важливим з огляду на постійний розвиток фішингових технік.
Модуль збору даних і парсингу. Першим компонентом системи є модуль
збору та парсингу вебсторінок. Його функція — автоматично отримувати
URL, завантажувати базову інформацію про сайт (сертифікат,
перенаправлення, структуру посилань, HTML-елементи) та перетворювати її
у формат, придатний для обрахунку ознак. Наприклад, система аналізує, чи
використовується HTTPS, перевіряє кількість піддоменів, наявність
підозрілих токенів у посиланнях, вивчає поведінкові елементи, такі як
JavaScript-події onmouseover або блокування правої кнопки миші. Цей
модуль забезпечує практичне застосування моделі, дозволяючи аналізувати
будь-який сайт користувача.
Модуль Feature Engineering та нормалізації. Наступний компонент
архітектури — блок видобування та нормалізації ознак. У дослідженні
використано набір характеристик, ідентичний тим, що присутні у Kaggle-
датасеті, зокрема: наявність IP-адреси в URL, довжина доменного імені,
показники довіри (Age of Domain, Page Rank), поведінкові елементи HTML та
статистичні параметри. На цьому етапі проводиться кодування символічних
значень у числові формати (−1, 0, 1), масштабування параметрів і заповнення
пропущених значень. Це забезпечує коректну передачу даних у модель та
стабільність під час навчання.
Модуль вибору і налаштування моделей ML. Архітектура системи
включає декілька моделей-кандидатів, серед яких логістична регресія, дерево
рішень і Random Forest. Використання ансамблевих методів, зокрема Random
Forest, дозволило досягти найвищої точності (f1 ≈ 0.97) завдяки можливості
Лист
Змін. ЧДТУ.25.24251.004 ПЗ
Лист № докум. Підпис Дата 53
об’єднання рішень багатьох дерев та стійкості до перенавчання. Для
підвищення якості моделі застосовувались методи оптимізації
гіперпараметрів (Grid Search, Optuna), що дозволило адаптувати архітектуру
під властивості конкретного датасету. Конкретно, для Random Forest
автоматично підібрано параметри n_estimators, max_depth, min_samples_split,
що забезпечило найкращий баланс між якістю та швидкістю роботи.
Конвеєр навчання моделі. Усі модулі об’єднані у єдиний ML-pipeline за
допомогою бібліотеки scikit-learn, що дозволяє виконувати послідовну та
повторювану обробку даних. Такий конвеєр складається з кроків:
Parsing → Feature Extraction → Preprocessing → Model
Training/Inference.
Після навчання модель може бути серіалізована (наприклад, через
joblib) та застосована у програмному забезпеченні для автоматичної оцінки
ризику вебсайту. Це дозволяє аналізувати веб-ресурси в реальному часі,
швидко отримувати прогноз та інтегрувати систему у веб-браузери або
корпоративні засоби кіберзахисту.
Архітектура передбачає можливість розгортання системи на реальних
робочих станціях або серверах. Завдяки модульності система легко
адаптується до появи нових фішингових загроз: можна оновлювати лише
датасет та перенавчати модель без зміни структури програмного коду.
Проведені експерименти з використанням відомих безпечних сайтів (Google,
YouTube, Amazon) та ідентифікованих зловмисних ресурсів показали високу
ефективність роботи архітектури та підтвердили правильний вибір моделі та
побудованого конвеєра.
Після виконання операцій парсінгу і підготовки даних до потрібного
виду, на яких навчалася модель, данні подаютьмя на натреновану модель для
проведення класифікації. Для отримання самої натренованої моделі
машинного навчання потрібно провести ряд заходів, які розглянути нижче.
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 54
3.3. Навчання та розгортання моделі ML
Перед тим як здійснити вібір моделі машинного навчання та
проведення її тренування, проведемо аналіз деяких ознак щодо їх
приналежності до відплвідних класів веб ресурсів (рис.3.3). Як видно з
рисунка, ознаки не мають єдиного однакового розподілу відносно безпечних
та фішингових веб-ресурсів, а це означає що цю нерівномірність можна
використати в якості характеристик для проведення класифікації.
Рис.3.3. Аналіз розподілу ознак датасета за їх значенням щодо класифікації
цільової функції
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 55
У подальшій частині роботи буде проведено комплексне дослідження
ефективності різних алгоритмів машинного навчання на запропонованому
датасеті для виявлення фішингових веб-сайтів. Оскільки набір даних містить
попередньо оброблені та інформативні ознаки, він дозволяє коректно
порівняти якість моделей та визначити найбільш придатні підходи для
реального застосування. Кожен алгоритм має різну природу — від лінійної
логістичної регресії до ансамблевих моделей — що дає можливість оцінити
їх здатність узагальнювати залежності та виявляти закономірності,
характерні для шкідливих URL.
У межах дослідження будуть розглянуті такі методи: логістична
регресія (LogisticRegression) як базовий лінійний класифікатор; дерево
рішень (DecisionTreeClassifier), що дозволяє інтерпретувати логіку
прийняття рішень; випадковий ліс (RandomForestClassifier) як потужна
ансамблева модель; та XGBClassifier — один із найефективніших
градієнтних бустингів, здатний виявляти складні нелінійні залежності. Для
кожної моделі буде здійснено підбір параметрів, навчання, тестування та
порівняння за основними метриками (accuracy, precision, recall, f1-score), а
також аналіз матриць плутанини для оцінки типових помилок. Це дозволить
обґрунтовано визначити модель, що забезпечує найкращу якість класифікації
фішингових веб-ресурсів.
Розглянемо побудову моделі логістичної регресії та парамери її
ефективності, які наведені на рис.3.4. У наведеному фрагменті коду
реалізовано тренування та оцінювання логістичної регресії як базового
класифікатора для виявлення фішингових веб-сайтів. В якості гіперпараметра
обрано max_iter=1000, який задає максимальну кількість кроків оптимізації,
необхідних моделі логістичної регресії для досягнення збіжності. Збільшення
цього значення забезпечує стабільне навчання моделі на великих або
складних вибірках.
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 56
Модель була навчена на тренувальній вибірці та протестована на
відкладених даних, що дозволило оцінити її реальну здатність
узагальнювати. За результатами експерименту логістична регресія показала
досить високі показники: точність (Accuracy) = 0.9240, Precision = 0.9276,
Recall = 0.9394, а також підсумковий F1-показник = 0.9335, що свідчить про
збалансованість між кількістю правильних позитивних і негативних
передбачень. Значення коефіцієнта Recall демонструє, що модель добре
виявляє більшість фішингових сайтів, що є критично важливим у контексті
кібербезпеки.
Рис.3.4. Побудова класифікатора на основі моделі логістичної регресії
(LogisticRegression) та представлення ефективності моделі
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 57
Аналіз матриці плутанини дозволяє глибше оцінити поведінку моделі.
Зокрема, встановлено, що кількість хибнонегативних передбачень (FN)
становить 92, тобто стільки шкідливих сайтів модель помилково
класифікувала як безпечні — це найнебезпечніший тип помилки для системи
протидії фішингу. Водночас кількість хибнопозитивних спрацювань (FP)
становить 76, тобто деякі легітимні сайти система помилково позначила як
підозрілі. Незважаючи на це, загальна якість класифікації висока, а модель
демонструє стабільні результати, що робить логістичну регресію придатною
для використання як базовий компонент у складі багатомодельних ML-
систем виявлення фішингових ресурсів.
Наступна модель DecisionTreeClassifier (рис.3.5) була навчена з
використанням випадкового стану random_state=42, що забезпечує
відтворюваність результатів. Дерево рішень працює шляхом рекурсивного
поділу простору ознак, формуючи послідовність логічних правил, які
дозволяють моделі чітко відокремлювати фішингові сайти від легітимних.
Отримані результати демонструють високу ефективність: Accuracy = 0.9575,
Precision = 0.9625, Recall = 0.9625, F1-score = 0.9625, що свідчить про добре
збалансовану якість класифікації. Матриця плутанини показує FN = 47
(модель пропустила 47 шкідливих сайтів) та FP = 47 (47 легітимних сайтів
були помилково позначені як фішингові), що є значно нижчими показниками
помилок порівняно з логістичною регресією.
Порівняно з попередньою моделлю логістичної регресії, яка досягла F1
= 0.9335, дерево рішень демонструє суттєво вищу точність класифікації.
Зокрема, кількість помилок типу FN зменшилася з 92 до 47, а FP — з 76 до
47, що майже вдвічі покращує здатність системи як правильно виявляти
фішингові сайти, так і не помилково блокувати легітимні ресурси. Це
підтверджує, що деревоподібний підхід краще враховує нелінійні залежності
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 58
в ознаках URL і структурі веб-ресурсів, роблячи модель більш адаптивною
до складних схем фішингу
Рис.3.5. Побудова класифікатора на основі моделі дерева рішень
(DecisionTreeClassifier) та представлення ефективності моделі
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 59
Розглянемо модель Random Forest, яка була налаштована з
параметром n_estimators=100, що означає використання 100 дерев рішень у
складі ансамблю (рис.3.6). Такий підхід забезпечує усереднення результатів
багатьох слабких моделей, зменшуючи ризик перенавчання, характерний для
окремих дерев рішень. Отримані метрики свідчать про високу ефективність
моделі: Accuracy = 0.9670, Precision = 0.9632, Recall = 0.9793, F1-score =
0.9712. Аналіз матриці плутанини показує значення FN = 47 та FP = 26, що
свідчить про значно кращу здатність моделі мінімізувати помилки другого
типу (пропуск фішингового сайту), порівняно з Decision Tree та Logistic
Regression. Зменшення FP також є важливим, адже воно знижує ймовірність
помилкового блокування легітимних веб-ресурсів.
У порівнянні з попередніми моделями, Random Forest демонструє
найкращий баланс точності, повноти та F1-міри. Попри те, що Decision
Tree мав доволі високі показники (F1 = 0.9625), ансамблевий метод
забезпечив істотно кращу узагальнюваність і стійкість до шуму в даних.
Logistic Regression, хоча й показала прийнятну точність (F1 = 0.9335), значно
поступається деревним моделям у виявленні складних нелінійних
залежностей. Таким чином, можна зробити висновок, що Random Forest є
найбільш оптимальною моделлю серед протестованих, оскільки поєднує
високу точність, стабільність і низьку частку критичних помилок, що робить
його ефективним інструментом для автоматичного виявлення фішингових
веб-сайтів.
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 60
Рис.3.6. Побудова класифікатора на основі моделі випадкового лісу (Random
Forest) та представлення ефективності моделі
Була розглянута ще одна модель XGBClassifier (рис.3.7), яка
продемонструвала найвищу ефективність серед усіх розглянутих алгоритмів,
досягнувши Accuracy = 0.9724, Precision = 0.9657, Recall = 0.9865 та F1-score
= 0.9760. Особливо важливим є високий показник Recall, який становить
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 61
0.9865, тобто модель пропускає мінімальну кількість фішингових сайтів (FN
= 44). Також вона показала найменшу кількість FP (17), що означає низький
рівень хибних звинувачень звичайних сайтів у фішингу. Такі результати
пояснюються тим, що XGBoost є градієнтним бустингом на деревах рішень і
здатний автоматично моделювати складні нелінійні залежності та взаємодії
між ознаками, що особливо важливо для задач аналізу веб-ресурсів, де багато
бінарних і категоріальних характеристик у взаємодії формують сигнал
фішингу.
Використані гіперпараметри відіграють ключову роль у досягненні
таких результатів. Параметр n_estimators=300 задає розмір ансамблю та
дозволяє моделі поступово коригувати помилки попередніх дерев,
підвищуючи стабільність. Низький learning_rate=0.05 змушує модель
навчатися повільніше, але точніше, знижуючи ризик переобучення. Параметр
max_depth=10 визначає максимально допустиму глибину дерев і забезпечує
здатність моделі виявляти складні закономірності у структурі URL та
пов’язаних атрибутів. Гіперпараметри subsample=0.8 та colsample_bytree=0.8
вводять стохастичність, зменшуючи кореляцію між деревами та підвищуючи
узагальнювальну здатність. У сукупності така конфігурація дозволяє
XGBoost досягти найкращої збалансованості між точністю, повнотою та
стійкістю до помилкових класифікацій, значно перевершуючи Logistic
Regression, Decision Tree та Random Forest.
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 62
Рис.3.7. Побудова класифікатора на основі моделі XGBClassifier та
представлення ефективності моделі
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 63
Порівняльний аналіз чотирьох класифікаторів — Logistic Regression,
DecisionTreeClassifier, RandomForestClassifier та XGBClassifier — показав,
що всі моделі демонструють високі результати під час класифікації
фішингових вебресурсів. Логістична регресія забезпечила базовий рівень
якості з F1=0.9335, тоді як дерево рішень показало помітно кращу
узагальнюючу здатність із F1=0.9625. Значно продуктивнішими виявилися
ансамблеві методи: випадковий ліс досяг F1=0.9712, зменшивши кількість як
хибно позитивних, так і хибно негативних класифікацій порівняно з
попередніми моделями.
Найкращий результат продемонстрував XGBClassifier, який досяг
найвищих значень точності (0.9724), повноти (0.9865) та F1-міри (0.9760).
Для цієї моделі також було зафіксовано мінімальну кількість критичних
помилок типу FN=44 та FP=17, що є важливим для задач кібербезпеки, де
помилка у вигляді пропущеного фішингового сайту може привести до
реальних інцидентів. Таким чином, проведене експериментальне порівняння
підтверджує, що моделі ансамблевого типу, особливо XGBoost, є найбільш
ефективними для поставленого завдання.
Оскільки XGBClassifier продемонстрував найвищу якість класифікації
та найменшу кількість небезпечних помилок, саме ця модель обрана для
подальшого практичного використання — аналізу реальних вебсайтів. Для
цього в роботі реалізовано власний модуль парсінгу, який автоматично
збирає та формує необхідний набір ознак із довільного URL. Отримані
характеристики узгоджуються з тим форматом ознак, на якому навчалися
моделі, що забезпечує коректне та надійне застосування навченої системи до
аналізу невідомих вебресурсів.
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 64
3.4. Тестування та оцінка ефективності системи
Для практичної реалізації навчаної моделі необхідно провести прасінг
сайту, здобути необхідні ознаки та перетворити їх до виду, на якому
навчалася початкова модель.
Модуль парсингу веб-сторінок призначений для автоматичного
формування структурованих ознак, які повністю відповідають тим
характеристикам, на яких навчалися моделі виявлення фішингових сайтів.
Основна ідея полягає у тому, що модель можна застосовувати лише до тих
даних, які подані у тому ж форматі, що і під час тренування. Саме тому
функція extract_features(url) відтворює всі 31 UCI-feature з класичного
датасету Phishing Websites Dataset, включаючи такі властивості як довжина
URL, SSL-стан, кількість піддоменів, типи тегів, поведінку скриптів тощо. Це
дозволяє автоматично "перетворити" будь-який сайт у набір характеристик,
які сумісні з навченою моделлю.
Важливо відзначити, що в коді використовується технологічно
правильний підхід: він комбінує HTTP-запит (requests), HTML-парсинг
(BeautifulSoup), аналіз домену (tldextract) та WHOIS-інформацію (python-
whois). Такий комплексний підхід забезпечує багатогранний аналіз: не тільки
структури URL, але й вмісту сторінки, поведінкових характеристик коду, а
також реєстраційних даних домену. У випадках, коли сайт не відповідає або
WHOIS-інформацію неможливо отримати, передбачені fallback-значення — в
таких ситуаціях ознака отримує значення "підозріло" (-1).
Третій важливий аспект полягає у тому, що код ретельно повторює
логіку категоризації UCI-ознак, де більшість атрибутів мають формат 1 / 0 / -
1. Це необхідно для узгодження з моделями, які були навчені саме на таких
категоріях. Наприклад, довжина URL перетворюється на категорію за
порогами 54 та 75 символів, кількість зовнішніх ресурсів в <img> або <script>
підраховується й перетворюється у три стани (1, 0, -1), наявність JavaScript-
подій (onmouseover, alert()) трактуються як потенційні фішингові ознаки.
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 65
Таким чином, функція емулює логіку оригінального дослідження, що
забезпечує коректність роботи моделі.
Наступне, це обробка HTML-вмісту. Код передбачає, що деякі сайти
можуть не мати розмітки або повертати пусту відповідь. У цьому випадку,
парсер виставляє ознакам дефолтні значення. Це важливо, оскільки реальні
фішингові сайти часто блокують запити, використовують захист від crawler-
ів або повертають порожній HTML через Cloudflare. Таке рішення дозволяє
класифікатору все одно робити прогноз навіть при мінімальному наборі
даних.
Таким чином, за результатом обробки рядка запиту повертається
строго впорядкований словник із 31 ознак, який ідеально сумісний з
навчальними моделями. Це ключовий момент: моделі машинного навчання
вимагають однаковий порядок ознак під час тренування та прогнозування.
Саме тому на виході формується стандартна структура, яка буде використана
в наступному етапі — функції прогнозування.
Окрім того, розроблена функція predict_url(), яка здійснює повний
цикл підготовки даних та передбачення класу сайту. Спочатку вона викликає
extract_features(url), після чого приводить словник до масиву з чітким
порядком ознак, використовуючи FEATURE_ORDER. Далі модель
завантажується з .pkl-файлу (у цьому варіанті використовується XGBoost), і
виконується прогноз разом із обчисленням ймовірностей для кожного класу.
Логіка інтерпретації прогнозу також модифікована: сайт вважається
безпечним лише якщо ймовірність легітимності перевищує 0.6, що дозволяє
зменшити кількість пропущених фішингових сайтів (FN). Таким чином, ця
частина коду завершує повний ML-пайплайн: від сирого URL → до
формалізованих ознак → до фінального рішення моделі.
На рис.3.8 надано тестовий набір посилань, а на рис.3.9-3.11 результати
аналізу.
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 66
Рис.3.8. Набір тестових веб-посилань
Аналіз безпечних і добре відомих вебресурсів, таких як Ukr.net,
CHDTU, Google, YouTube, GitHub та KPI.ua, демонструє стабільну роботу
моделі та її здатність коректно ідентифікувати легітимні домени. Високі
значення ймовірності Legitimate (0.999–1.000) (рис.3.9.) свідчать про те, що
ознаки цих сайтів — структура URL, відсутність підозрілих символів,
коректні SSL-сертифікати, низька складність шляху та сприятливі WHOIS-
характеристики — повністю відповідають профілю безпечних ресурсів у
навчальній вибірці.
Рис.3.9. Результи аналізу веб-ресурсів, які віднесені до безпечних
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 67
Така поведінка підтверджує, що модель успішно узагальнює
інформацію і не проявляє надмірної чутливості до незначних варіацій у
домені чи параметрах URL.
У свою чергу, аналіз фішингових доменів із відкритої бази PhishTank,
таких як amazon-account-verify-security.com та facebook-authenticate-
security.com, демонструє протилежну картину (рис.3.10-3.11). Модель
присвоїла цим URL високу ймовірність Phishing (0.864), що відображає
наявність характерних для фішингу патернів: використання довгих
шахрайських доменів, намагання імітувати відомі бренди, відсутність SSL-
шифрування (http замість https), а також типові маніпулятивні конструкції у
шляху, на кшталт verify, security, authenticate. Це підтверджує, що модель
коректно розпізнає ключові аномалії, які були закладені у процесі навчання.
Рис.3.10. Результ аналізу веб-ресурсу, які віднесені до фішингових
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 68
Рис.3.11. Результ аналізу веб-ресурсу, які віднесені до фішингових
Отримані результати засвідчують здатність моделі ефективно розділяти
легітимні та фішингові ресурси в умовах реального середовища. Висока
контрастність між ймовірностями для безпечних і небезпечних URL вказує
на надійність обчислених ознак та правильність побудованого пайплайна.
Така поведінка моделі є ключовою передумовою для її подальшого
практичного використання у системах автоматизованого веб-моніторингу та
детектування шкідливих посилань.
3.5. Висновки
В даному розділі проведено детальний аналіз та опис використаного
датасету із відкритого джерела Kaggle (“Phishing Website Detection”), що
слугував основою для побудови системи автоматичного виявлення
фішингових вебсайтів. Датасет містив різноманітні ознаки вебресурсів, такі
як довжина URL, кількість спеціальних символів, параметри WHOIS,
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 69
наявність SSL-сертифіката та інші, що дозволило створити багатовимірне
представлення кожного URL для подальшого машинного навчання. Такий
підхід забезпечив повноцінну підготовку даних, необхідну для навчання
моделей, а також їх коректну інтерпретацію в контексті задач кібербезпеки.
Для побудови системи було обґрунтовано архітектуру машинного
навчання, яка включала етапи попередньої обробки даних, виділення ознак,
навчання класифікаторів та тестування на реальних вебресурсах. Проведено
порівняльний аналіз чотирьох моделей — Logistic Regression,
DecisionTreeClassifier, RandomForestClassifier та XGBClassifier. Результати
показали, що всі моделі демонструють високі показники класифікації, проте
ансамблеві методи, зокрема XGBoost, забезпечують найкращу якість і
мінімізують кількість критичних помилок типу FN та FP, що є ключовим у
задачах захисту від фішингу.
Етап навчання та розгортання моделі показав, що XGBClassifier досягає
найвищих значень точності (0.9724), повноти (0.9865) та F1-міри (0.9760). На
основі цієї моделі було реалізовано модуль автоматичного парсінгу
вебсайтів, який формує набір ознак у тому форматі, на якому навчалася
модель. Така інтеграція забезпечує можливість безпечного та надійного
застосування системи до невідомих URL у реальному середовищі, що
підвищує практичну цінність розробленого рішення.
Тестування системи на реальних вебресурсах підтвердило високу
ефективність моделі у розділенні легітимних та фішингових сайтів. Отримані
результати засвідчують надійність обчислених ознак та коректність
побудованого пайплайна, що проявляється у високій контрастності
прогнозованих ймовірностей для безпечних і небезпечних URL. Це свідчить
про практичну придатність системи для використання у задачах
автоматизованого моніторингу вебресурсів.
Таким чином, проведене експериментальне дослідження підтвердило
ефективність та стабільність запропонованого підходу. Ансамблеві методи, а
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 70
особливо XGBClassifier, показали найкращі результати серед усіх
протестованих моделей, забезпечивши мінімізацію критичних помилок і
високу узагальнюючу здатність системи. Розроблена система може бути
інтегрована у практичні інструменти кібербезпеки для автоматичного
виявлення фішингових вебсайтів та підвищення рівня захисту користувачів
від потенційних загроз.
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 71
ВИСНОВКИ
У роботі було реалізовано комплексний підхід до виявлення
фішингових веб-сайтів, що передбачав аналіз сучасних кіберзагроз, вивчення
методів протидії та застосування алгоритмів машинного навчання для
автоматичної класифікації URL-адрес. На основі поставленої мети та
сформованих завдань виконано повний цикл дослідження — від
теоретичного аналізу природи фішингових атак до практичної розробки та
тестування моделі. Це дозволило сформувати науково обґрунтовану та
практично придатну систему, здатну підвищувати рівень кіберзахисту.
У першому розділі було досліджено фундаментальні аспекти
фішингових атак, їх еволюцію, типологію та найбільш поширені техніки, що
застосовуються зловмисниками. Розглянуто інструменти формування
фішингових кампаній і проаналізовано сучасні методи та технології
виявлення шкідливих ресурсів. Узагальнення цих матеріалів дало змогу
визначити ключові вразливості користувачів та обмеження традиційних
засобів захисту, що підтвердило необхідність використання інтелектуальних
моделей аналізу веб-простору.
Другий розділ був присвячений методам машинного навчання та
формуванню ознакового простору для класифікації веб-ресурсів.
Виокремлено й охарактеризовано основні групи ознак, такі як лексичні,
структурні, мережеві, SSL-сертифікаційні та поведінкові індикатори. На їх
основі було розроблено архітектуру системи машинного аналізу URL-адрес.
Обґрунтування вибору моделей та підходів до векторизації забезпечило
високу інформативність вхідних даних і сприяло побудові оптимальних
класифікаційних алгоритмів.
У третьому розділі реалізовано практичну частину дослідження, що
включала роботу з датасетом, векторизацію ознак, налаштування та навчання
моделей машинного навчання. Порівняльний аналіз чотирьох класифікаторів
— Logistic Regression, Decision Tree, Random Forest та XGBClassifier —
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 72
продемонстрував стабільно високі результати всіх моделей, проте ансамблеві
підходи показали помітну перевагу. Найкращу ефективність забезпечив
XGBClassifier, досягнувши F1-міри 0.9760 та мінімізувавши критично
важливі помилки FN та FP, що є ключовим фактором у задачах кіберзахисту.
Таким чином, поєднання сучасних методів обробки веб-даних та
алгоритмів машинного навчання дає змогу створити надійну й ефективну
систему виявлення фішингових веб-ресурсів. Запропонована модель
демонструє високу точність, добру узагальнюючу здатність та практичну
придатність до інтеграції у реальні системи моніторингу кіберзагроз.
Отримані результати можуть бути використані для подальшого
вдосконалення автоматизованих систем аналізу веб-трафіку та розширення
можливостей захисту користувачів в умовах зростання кількості та
складності фішингових атак.
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 73
СПИСОК ВИКОРИСТАНОЇ ЛІТЕРАТУРИ
1. Штонда, Р., Черниш, Ю., Терещенко, Т., Терещенко, К., Цикало, Ю.,
& Поліщук, С. (2024). Класифікація та методи виявлення
фішингових атак. Електронне фахове наукове видання
«Кібербезпека: освіта, наука, техніка», Том 4, № 24, 69–80. DOI:
10.28925/2663-4023.2024.24.6980. csecurity.kubg.edu.ua
2. Гайдур, Г. І., Гахов, С. О., Марченко, В. В., & Гайдур, К. В. (2024).
Концептуальна модель виявлення фішингових атак на основі
використання методів опорних векторів. Журнал «Сучасний захист
інформації», № 2(58). DOI:10.31673/2409-7292.2024.020003.
journals.dut.edu.ua+1
3. Фещенко, Є. О., & Заболотня, Т. М. (2025). Метод
автоматизованого виявлення фішингу в електронних листах на
основі гібридної нейромережевої архітектури. Наукові праці ВНТУ,
випуск 2 (2025), с. 145–154. DOI:10.31649/2307-5376-2025-2-145-
154.
4. М. Л. Ковальчук, Ю. О. Ушенко, Д. І. Угрин. Методи та системи
штучного інтелекту. Навчальний посібник. – Чернівці: Чернівецький
національний університет ім. Ю. Федьковича, 2022. – 318 с.
5. Фратавчан В.Г., Фратавчан Т.М., Лукашів Т.О., Літвінчук Ю.А.,
Методи та системи штучного інтелекту: навчальний посібник.
Чернівці: ЧНУ, 2023, – 114 с.
6. Методи та системи штучного інтелекту: Навчальний посібник /
Уклад.: А.С.Савченко, О.О.Синельніков. – К. : НАУ, 2017. – 190 с.
7. Засоби штучного інтелекту: навч. посіб. / Р. О. Ткаченко,
Н. О. Кустра, О. М. Павлюк, У. В. Поліщук ; М-во освіти і науки
України, Нац. ун-т «Львів. політехніка». — Львів: Вид-во Львів.
політехніки, 2014. — 204 с.
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 74
8. Дворжак В.В., Талах М.В. Глибинне навчання для комп’ютерного
зору. Частина 1 / В.В. Дворжак, М.В. Талах – Чернівці: Технодрук,
2022 р. – 271 с.
9. Bart Baesens, Veronique Van Vlasselaer, and Wouter Verbeke "Fraud
Analytics Using Descriptive, Predictive, and Social Network Techniques:
A Guide to Data Science for Fraud Detection” // 2015. – Ch. 3-4
10. “Classification: Accuracy, recall, precision, and related metrics –
Machine Learning”. ‒ URL: https://developers.google.com/machine-
learning/crash-course/classification/accuracyprecision-recall (дата
звернення: 05.09.2025)
11. “XGBoost Documentation”. – URL:
https://xgboost.readthedocs.io/en/stable/ (дата звернення: -1.12.2025).
Лист
ЧДТУ.25.24251.004 ПЗ
Змін. Лист № докум. Підпис Дата 75