Розробка системи виявлення шахрайських транзакцій із застосуванням методів машинного навчання

Гуржій, Іван Володимирович
Please use this identifier to cite or link to this item: https://er.chdtu.edu.ua/handle/ChSTU/6500
Title:	Розробка системи виявлення шахрайських транзакцій із застосуванням методів машинного навчання
Authors:	Палагін, Володимир Васильович Гуржій, Іван Володимирович
Keywords:	машинне навчання;виявлення шахрайства;фінансові транзакції;кібербезпека
Issue Date:	2025
Abstract:	"Метою роботи є розробка системи виявлення шахрайських транзакцій у фінансових потоках із застосуванням методів машинного навчання, що дозволяє автоматизувати процеси виявлення аномальних операцій та підвищити рівень кібербезпеки фінансових платформ. Об’єктом дослідження є процеси обробки та аналізу транзакцій у електронних платіжних системах з метою виявлення шахрайських операцій та забезпечення їх безпеки. Предметом дослідження є методи та алгоритми машинного навчання, що застосовуються для виявлення шахрайських транзакцій. "
URI:	https://er.chdtu.edu.ua/handle/ChSTU/6500
Appears in Collections:	125 Кібербезпека та захист інформації (Безпека інформаційних і комунікаційних систем)
Files in This Item:
File	Description	Size	Format
М_125_Гуржій_Палагін.pdf Restricted Access		2.47 MB	Adobe PDF	View/Open Request a copy
Show full item record
Extracted text
МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ 
ЧЕРКАСЬКИЙ ДЕРЖАВНИЙ ТЕХНОЛОГІЧНИЙ УНІВЕРСИТЕТ 
ФАКУЛЬТЕТ ЕЛЕКТРОННИХ ТЕХНОЛОГІЙ, 
АВТОТРАНСПОРТУ ТА МАШИНОБУДУВАННЯ 
КАФЕДРА РОБОТОТЕХНІЧНИХ І ТЕЛЕКОМУНІКАЦІЙНИХ СИСТЕМ  
ТА КІБЕРБЕЗПЕКИ 
 
 
До захисту допущено  
завідувач кафедри РТСК 
д.т.н., професор  
_______________ В.В. Палагін  
"_____" _____________ 2025 року 
 
 
Пояснювальна записка 
до дипломного роботи 
  магістра   
(освітньо-кваліфікаційний рівень) 
 
 
на тему Розробка системи виявлення шахрайських транзакцій 
із застосуванням методів машинного навчання 
 
Виконав: студент  2  курсу, групи    мБІ-41    
Спеціальності 125 – «Кібербезпека та захист інфомації», 
(шифр і назва спеціальності) 
 
освітньої програми  «Безпека інформаційних і комуніка-
ційних систем»  
                         (назва освітньої програми) 
  Гуржій І.В.   
(прізвище та ініціали) 
Керівник     Палагін В.В.  
(прізвище та ініціали) 
Рецензент  Чепинога А.В.  
(прізвище та ініціали) 
 
 
Черкаси – 2025 року 
ЗМІСТ 
ВСТУП 5 
 
РОЗДІЛ 1. АНАЛІЗ ШАХРАЙСЬКИХ ТРАНЗАКЦІЙ У 
7 
ФІНАНСОВИХ СИСТЕМАХ 
1.1. Характеристика шахрайських транзакцій у фінансових системах 7 
1.2. Основні методи виявлення шахрайства при проведенні транзакцій 11 
1.3. Аналіз існуючих систем виявлення шахрайських транзакцій 18 
1.4. Методи машинного навчання, що застосовуються у кібербезпеці  20 
1.5. Висновки 32 
 
РОЗДІЛ 2. РОЗРОБКА СИСТЕМИ ВИЯВЛЕННЯ 
33 
ШАХРАЙСЬКИХ ТРАНЗАКЦІЙ МЕТОДАМИ ML 
2.1. Постановка задачі та її формалізація 33 
2.2. Опис та обгрунтування архітектури системи 34 
2.3. Підготовка даних для машинного навчання 38 
2.4. Вибір метрик оцінки ефективності моделі 53 
2.5. Висновки 56 
 
РОЗДІЛ 3. РЕАЛІЗАЦІЯ ЕКСПЕРЕМЕНТІВ ТА АНАЛІЗ 
64 
МОДЕЛЕЙ ML ДЛЯ ВИЯВЛЕННЯ ШАХРАЙСЬКИХ 
ТРАНЗАКЦІЙ  
3.1 Джерела даних для побудови моделі виявлення шахрайських 58 
транзакцій 
3.2 Попередній аналіз та обробка даних 61 
мБі41.025.249.248 ПЗ 
Змн. Арк. № докум. Підпис Дата 
 Розроб. Гуржій І.В. Розробка системи виявлення Літ. Арк. Акрушів 
 Перевір. Палагін В.В. шахрайських транзакцій із 3  
 Реценз.  застосуванням методів 
 Н. Контр. Палагін В.В. машинного навчання ЧДТУ 
 Затверд.  
 
3.3 Побудова моделі Random Forest та її аналіз для виявлення 72 
шахрайських транзакцій 
3.4 Побудова моделі XGBoost та її аналіз для виявлення шахрайських 77 
транзакцій  
3.5. Висновки 81 
  
ВИСНОВКИ 83 
СПИСОК ВИКОРИСТАНОЇ ЛІТЕРАТУРИ 85 
ДОДАТОК А. Ілюстративний матеріал 87 
 
Лист 
мБі41.025.249.248 ПЗ 
Змін. Лист № докум.  
Підпис Дата  
Форма № Н-9.01 
 
ЧЕРКАСЬКИЙ ДЕРЖАВНИЙ ТЕХНОЛОГІЧНИЙ УНІВЕРСИТЕТ 
Факультет електронних технологій, автотранспорту та машинобудування 
Кафедра  робототехнічних і телекомунікаційних систем та кібербезпеки  
Освітньо-кваліфікаційний рівень  магістр  
Спеціальність  125 – Кібербезпека та захист інформації 
Освітня програма  – Безпека інформаційних і комунікаційних систем  
 
 
ЗАТВЕРДЖУЮ 
Завідувач кафедри  В.В. Палагін 
“_____” ___________________ 2025 року 
 
ЗАВДАННЯ 
НА ВИПУСКНУ РОБОТУ СТУДЕНТУ 
 
Гуржій Іван Володимирович 
(прізвище, ім’я, по батькові) 
1. Тема проекту (роботи) Розробка системи виявлення шахрайських транзакцій із 
застосуванням методів машинного навчання 
керівник проекту (роботи)  Палагін Володимир Васильович  
(прізвище, ім’я, по батькові, науковий ступінь, вчене звання) 
затверджені наказом вищого навчального закладу від «15» вересня 2025 року № 261/03-03 
 
2. Термін здачі студентом закінченої роботи  «05»  грудня 2025 року_________ 
 
3. Вихідні дані до роботи: підготувати набір даних для навчання та тестування моделей, 
включаючи очищення, нормалізацію та балансування класів. Реалізувати моделі 
машинного навчання — Random Forest та XGBoost — для класифікації транзакцій. 
Виконати оптимізацію гіперпараметрів моделей із використанням крос-валідації. 
Провести порівняльний аналіз моделей за метриками Precision, Recall, F1-score, ROC-
AUC. Сформулювати висновки щодо доцільності застосування вибраних алгоритмів у 
задачі детекції шахрайства, мова програмування – Python. 
 
4. Зміст розрахунково-пояснювальної записки (перелік питань, що їх належить розробити) 
Вступ; Аналіз шахрайських транзакцій у фінансових системах; Розробка системи 
виявлення шахрайських транзакцій методами ML: опис та обгрунтування архітектури 
системи, підготовка даних для машинного навчання; Реалізація експерементів та аналіз 
моделей ML для виявлення шахрайських транзакцій; Висновки; Список використаних 
джерел. 
 
5.  Перелік графічного матеріалу (з точним зазначенням обов’язкових креслень, плакатів):  
Схематичні представлення характеристик шахрайських транзакцій у фінансових 
системах; Архітектури систем машинного навчання для виявлення шахрайства; 
Застосування класифікаторів машинного навчання Random Forest та XGBoost для аналізу 
даних; Скріншоти роботи програми; Мультимедійна презентація. 
.
6. Консультанти з проекту (роботи) із зазначенням розділів проекту, що їх стосуються 
Прізвище, ініціали та посада Підпис, дата 
Розділ консультанта завдання завдання 
видав прийняв 
    
    
    
 
7. Дата видачі завдання  15 вересня 2025 року  
  
 
 
 
КАЛЕНДАРНИЙ ПЛАН  
 
№ Назва етапів дипломного  Строк виконання 
з/п проекту (роботи)  етапів проекту Примітка  
(роботи) 
1. П ошук і аналіз інформації по заданій темі 01.09.2025-  
16.09.2025 
2. Н аписання 1-го розділу: Аналіз шахрайських 17.09.2025-  
транзакцій у фінансових системах 29.09.2025 
3. Н аписання 2-го розділу: Розробка системи 30.09.2025-  
виявлення шахрайських транзакцій методами 20.10.2025 
ML 
4. Н аписання 3-го розділу: Реалізація 21.10.2025-  
експерементів та аналіз моделей ML для 09.11.2025 
виявлення шахрайських транзакцій 
5. Н аписання вступу і висновків, складання 10.11.2025-  
списку літератури 22.11.2025 
6. О формлення пояснювальної записки 23.11.2025-  
05.12.2025 
7. О формлення плакатів презентації 01.12.2025-  
05.12.2025 
 
 
 
 
Студент        Гуржій І.В.  
 ( підпис ) (прізвище та ініціали) 
 
 
Керівник проекту (роботи)  Палагін В.В.  
 ( підпис ) (прізвище та ініціали) 
 
 
ВСТУП 
 
Сучасні фінансові системи та електронні платіжні сервіси стрімко 
розвиваються, що супроводжується значним збільшенням обсягів транзакцій 
та появою нових типів шахрайства. Шахрайські операції у фінансовій сфері 
завдають значних економічних збитків як окремим користувачам, так і 
організаціям, що обслуговують платіжні системи. В умовах цифровізації 
виявлення шахрайських транзакцій стає критично важливим елементом 
забезпечення інформаційної безпеки фінансових сервісів та довіри клієнтів 
до них. 
Традиційні методи виявлення шахрайства, які базуються на жорстко 
заданих правилах або порогових значеннях, виявляються недостатньо 
ефективними через високу адаптивність зловмисників та складність сучасних 
схем шахрайських дій. Зростаюча складність та обсяги даних у фінансових 
потоках роблять ручний аналіз або класичні алгоритми малоефективними, 
що підкреслює необхідність впровадження сучасних підходів на основі 
штучного інтелекту. 
Методи машинного навчання дозволяють автоматично аналізувати 
великі обсяги даних, виявляти закономірності та аномалії, характерні для 
шахрайських транзакцій, та адаптуватися до нових типів атак без постійного 
ручного втручання. Застосування алгоритмів класифікації, нейронних мереж 
та моделей виявлення аномалій створює можливість формування системи, 
здатної у режимі реального часу попереджувати та блокувати шахрайські дії, 
зменшуючи фінансові ризики та підвищуючи безпеку користувачів. 
Таким чином, розробка системи виявлення шахрайських транзакцій із 
застосуванням методів машинного навчання є надзвичайно актуальною з 
врахуванням сучасних загроз та викликів. Кваліфікаційне дослідження 
дозволяє поєднати теоретичні основи безпеки інформаційних систем із 
практичними методами аналізу даних та побудови адаптивних алгоритмів, 
 Лист 
 мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   5 
 
що підвищує ефективність захисту сучасних фінансових платформ та 
відповідає сучасним вимогам галузі. 
Метою роботи є розробка системи виявлення шахрайських транзакцій 
у фінансових потоках із застосуванням методів машинного навчання, що 
дозволяє автоматизувати процеси виявлення аномальних операцій та 
підвищити рівень кібербезпеки фінансових платформ. 
Для досягнення поставленої мети в роботі необхідно розв’язати 
наступні задачі: 
1. Провести аналіз сучасних методів виявлення шахрайських транзакцій та 
визначити їх переваги та обмеження. 
2. Дослідити сучасні алгоритми машинного навчання, придатні для задач 
класифікації та виявлення аномалій у фінансових даних. 
3. Зібрати та підготувати дані для навчання моделей машинного навчання, 
включаючи очистку, нормалізацію та побудову ознак (feature engineering). 
4. Розробити архітектуру системи виявлення шахрайських транзакцій та 
обґрунтувати вибір алгоритмів машинного навчання для її реалізації. 
5. Провести навчання, тестування та валідацію моделей, оцінити їх 
ефективність за метриками точності. 
6. Розробити рекомендації щодо інтеграції системи у реальні фінансові 
сервіси та визначити шляхи її подальшого вдосконалення. 
Об’єктом дослідження є процеси обробки та аналізу транзакцій у 
електронних платіжних системах з метою виявлення шахрайських операцій 
та забезпечення їх безпеки. 
Предметом дослідження є методи та алгоритми машинного 
навчання, що застосовуються для виявлення шахрайських транзакцій. 
 
 Лист 
  мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   6 
 
1. АНАЛІЗ ШАХРАЙСЬКИХ ТРАНЗАКЦІЙ У ФІНАНСОВИХ 
СИСТЕМАХ 
 
1.1. Характеристика шахрайських транзакцій у фінансових 
системах 
Сучасні фінансові системи характеризуються великим обсягом 
електронних транзакцій, що включають платежі через банківські картки, 
онлайн-банкінг, мобільні додатки та платіжні платформи. Зростання 
популярності цифрових платежів створює значні можливості для 
зловмисників здійснювати шахрайські операції, що негативно впливає на 
фінансову безпеку користувачів та організацій. 
Шахрайська транзакція – це несанкціонована або незаконна діяльність, 
що передбачає використання платіжних інструментів або фінансових систем, 
зазвичай з метою отримання грошей, товарів або послуг без належної згоди 
чи дозволу власника рахунку. Цей тип транзакції часто пов’язаний з 
крадіжкою особистих даних, крадіжкою платіжної інформації або обманом і 
має на меті завдати фінансової шкоди власнику рахунку, бізнесу або 
фінансовій установі 
Шахрайство з онлайн-платежами стрімко зростає, і, за прогнозами, 
глобальні збитки досягнуть 91 мільярда доларів у 2028 році . У відповідь 
компанії значно інвестують у передові технології, такі як штучний інтелект, 
щоб покращити виявлення та запобігання шахрайству. 
Шахрайські транзакції можуть мати різну природу: несанкціоноване 
використання платіжних карток, підробка ідентифікаційних даних, 
маніпуляції з електронними гаманцями та фальсифікація фінансових 
документів. Часто шахрайські дії маскуються під звичайні операції, що 
ускладнює їх своєчасне виявлення та блокування. 
Важливою характеристикою шахрайських транзакцій є їх аномальність 
відносно типової поведінки користувачів. Це можуть бути незвично великі 
 Лист 
  мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   7 
 
суми платежів, часті транзакції у короткий проміжок часу або операції з 
нетипових географічних локацій. Виявлення таких аномалій є ключовим 
завданням систем виявлення шахрайства. 
Сучасні методи шахрайства постійно еволюціонують, тому фінансові 
організації стикаються з необхідністю швидко адаптувати свої системи 
безпеки. Використання застарілих правил або простих порогових алгоритмів 
не забезпечує достатній рівень захисту, адже шахраї застосовують складні 
багатокрокові схеми та автоматизовані інструменти для обходу традиційних 
систем контролю. 
Шахрайські транзакції також відрізняються високою розмаїтістю та 
непередбачуваністю, що робить ручний контроль практично неможливим. Це 
створює необхідність застосування автоматизованих систем аналізу даних, 
здатних швидко ідентифікувати потенційні загрози та мінімізувати фінансові 
втрати. 
Виявлення шахрайських транзакцій є складним завданням, що поєднує 
аналіз великого обсягу фінансових даних, виявлення аномальних патернів і 
прогнозування потенційних загроз. У цьому контексті використання методів 
машинного навчання дозволяє побудувати адаптивні системи, здатні в 
режимі реального часу реагувати на нові види шахрайства та підвищувати 
ефективність захисту фінансових операцій. 
У фінансовій галузі проблема шахрайських транзакцій залишається 
однією з найактуальніших і таких, що мають суттєвий економічний вплив. 
Згідно зі звітом Association of Certified Fraud Examiners (ACFE), щорічні 
глобальні втрати від шахрайства перевищують 4,7 трильйона доларів США. 
Дослідження компанії TransUnion свідчить, що у середньому бізнеси по 
всьому світу втрачають близько 7,7% своїх річних доходів через різні форми 
фінансового шахрайства, що становить приблизно 534 мільярди доларів 
США серед опитаних компаній. 
Водночас аналітики Juniper Research прогнозують, що загальні збитки 
 Лист 
Змін.     мБі41.025.249.248 ПЗ 
Лист № докум. Підпис Дата   8 
 
банківського сектору від шахрайських операцій можуть зрости з приблизно 
23 млрд доларів США у 2025 році до 58,3 млрд доларів США до 2030 року, 
що свідчить про стрімке зростання масштабів проблеми у найближчі роки. 
Наведемо аналіз деяких видів шахрайста, які базуються на фінансових 
транзакціях. 
Шахрайство з кредитними картками. Шахрайство з кредитними 
картками – це неправомірне використання кредитної картки або її реквізитів 
з метою здійснення покупок, зняття готівки чи переказу коштів без згоди 
власника. Основні форми такого правопорушення включають: 
• шахрайство без пред’явлення картки (Card-not-present - CNP) – 
відбувається під час онлайн- або телефонних транзакцій, коли фізична 
наявність картки не є обов’язковою; 
• виготовлення підроблених карток – створення фальшивих платіжних 
карт із використанням викрадених даних дійсних карток; 
• тестування карток – здійснення незначних транзакцій для перевірки 
активності викраденої картки перед проведенням масштабних операцій 
або продажем її реквізитів. 
Шахрайство з банківськими переказами. Шахрайство з 
електронними переказами коштів – це несанкціоноване використання 
електронних або фінансових комунікаційних систем для здійснення переказів 
під неправдивими приводами. Поширеними методами є фішинг, 
компрометація ділової електронної пошти (business email compromise - EC) та 
інші форми соціальної інженерії. 
Шахрайство з онлайн-платежами. Шахрайство з онлайн-платежами 
охоплює несанкціоновані операції, здійснені через електронні платформи або 
цифрові гаманці. До типових методів належать: захоплення облікових 
записів, фішингові атаки та використання викрадених платіжних реквізитів. 
Іпотечне шахрайство. Іпотечне шахрайство виникає у разі подання 
неправдивих або оманливих відомостей у заявках на іпотечні кредити з 
 Лист 
 мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   9 
 
метою отримання позики чи вигідніших умов фінансування. Поширеними 
проявами є спотворення даних про доходи, завищення вартості застави або 
подання фальсифікованих документів. 
Розуміння мотиваційних аспектів та системних передумов, які 
зумовлюють виникнення шахрайства, є ключовим елементом при 
розробленні ефективної стратегії захисту бізнесу від фінансових загроз.  
Наведено основні фактори, що сприяють здійсненню шахрайських 
транзакцій. 
Фінансові стимули. Основним рушійним мотивом шахраїв є прагнення 
до незаконного матеріального зиску. Зловмисники намагаються отримати 
грошові кошти, товари чи послуги без оплати або шляхом використання 
незаконних фінансових схем з метою особистого збагачення. 
Технологічний розвиток. Швидкий прогрес у сфері цифрових 
технологій створює нові можливості для здійснення шахрайських дій. 
Кіберзлочинці використовують уразливості інформаційних систем, 
розробляють шкідливе програмне забезпечення та застосовують методи 
соціальної інженерії для отримання несанкціонованого доступу до 
конфіденційної фінансової інформації. 
Анонімність кіберпростору. Інтернет-середовище забезпечує високий 
рівень анонімності, що ускладнює процес ідентифікації та притягнення 
порушників до відповідальності. Це створює сприятливі умови для вчинення 
шахрайських дій на міжнародному рівні. 
Доступність персональних даних. Масові витоки інформації, 
активність користувачів у соціальних мережах та відкритість публічних 
реєстрів спрощують збір персональних і фінансових даних. Ця інформація 
може бути використана для крадіжки особистості, підроблення документів 
або проведення шахрайських транзакцій. 
Складність фінансових систем. Багаторівнева структура сучасних 
фінансових систем створює умови для зловживань. Недоліки в системах 
 Лист 
 мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   10 
 
контролю, регулювання чи моніторингу можуть бути використані 
зловмисниками для здійснення шахрайських операцій. 
Недостатня обізнаність учасників фінансового ринку. Брак знань 
щодо методів виявлення шахрайства та заходів кібербезпеки підвищує ризик 
уразливості як для клієнтів, так і для підприємств. Відсутність системної 
підготовки персоналу або належної інформаційної політики посилює 
можливості для правопорушень. 
Недосконалість заходів безпеки. Недостатній рівень захисту 
інформаційних систем, використання застарілих технологій або слабких 
механізмів автентифікації створює додаткові можливості для зловмисників. 
Відсутність регулярного оновлення програмного забезпечення та контролю 
безпеки значно підвищує ризик фінансових втрат. 
Бізнес-структурам та споживачам необхідно усвідомлювати, що 
кількість і складність шахрайських схем постійно зростають унаслідок 
розвитку цифрових технологій та глобалізації фінансових ринків. Ефективне 
запобігання таким загрозам вимагає підвищення рівня обізнаності, 
використання сучасних засобів кіберзахисту та дотримання належних 
процедур фінансової безпеки. 
 
1.2. Основні методи виявлення шахрайства при проведенні 
транзакцій 
Одним із перших підходів до виявлення шахрайських транзакцій у 
фінансових системах стали правила та порогові методи, які базуються на 
попередньо визначених логічних умовах або граничних значеннях 
параметрів. Такі методи передбачають створення набору правил, які 
описують нормальну або підозрілу поведінку користувачів. 
Наприклад: 
 Лист 
  мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   11 
 
«Правило перевищення граничної суми транзакції» - якщо сума 
транзакції перевищує певний ліміт або здійснюється в незвичний час доби, 
система може класифікувати її як потенційно шахрайську; 
«Правило частоти транзакцій за короткий проміжок часу» - надмірна 
кількість транзакцій за короткий період може свідчити про автоматизовані 
шахрайські атаки; 
«Правило географічної аномалії» - транзакції, що відбуваються з 
географічних локацій, які істотно відрізняються від звичних місць 
користувача; 
«Правило нетипового часу здійснення транзакції» - операції, проведені 
у незвичний для користувача час (наприклад, уночі), можуть бути 
підозрілими; та інші.  
Перевагою правил та порогових методів є їхня простота, прозорість та 
легкість реалізації. Вони не потребують великих обчислювальних ресурсів і 
дозволяють швидко реагувати на відомі типи шахрайства. Такі підходи часто 
застосовуються у банківських системах як перша лінія захисту або як частина 
комбінованої системи безпеки. 
Однак головним недоліком порогових методів є їх жорстка 
фіксованість — вони не здатні адаптуватися до нових типів шахрайства або 
змін поведінки користувачів. У сучасних умовах шахраї активно змінюють 
свої стратегії, і правила, що були ефективними в минулому, швидко 
втрачають актуальність. Це призводить до зростання кількості 
хибнопозитивних результатів, коли законні транзакції помилково 
вважаються підозрілими, та хибнонегативних, коли шахрайські операції 
залишаються непоміченими. 
Іншою проблемою є обмеженість масштабованості. У складних 
платіжних системах з тисячами користувачів створення та підтримка великої 
кількості правил стає громіздким процесом. Кожне правило вимагає 
постійного оновлення, а при зміні поведінки клієнтів потрібно 
 Лист 
 мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   12 
 
перебудовувати всю систему логічних перевірок. Це значно знижує 
ефективність системи в умовах динамічного середовища. 
У спробі покращити ефективність таких систем деякі дослідники 
пропонують гібридні підходи, які поєднують правила з елементами 
статистичного аналізу або машинного навчання. Наприклад, система може 
автоматично коригувати пороги залежно від історичних даних чи 
поведінкових профілів користувачів. Такий підхід дозволяє знизити кількість 
хибних спрацьовувань і підвищити точність виявлення. 
Попри свої обмеження, правила та порогові методи залишаються 
важливою складовою систем виявлення шахрайства, особливо в тих 
випадках, коли необхідно забезпечити прозорість прийняття рішень і 
контроль над логікою перевірки. У сучасних умовах ці методи часто 
використовуються у поєднанні з алгоритмами машинного навчання, які 
забезпечують адаптивність, гнучкість та здатність моделі самостійно 
виявляти нові шаблони шахрайської поведінки. 
Методи статистичного аналізу є одним із найважливіших етапів 
розвитку систем виявлення шахрайських транзакцій. На відміну від жорстких 
правил і порогових методів, статистичні підходи базуються на оцінюванні 
розподілу параметрів фінансових операцій та виявленні відхилень від 
нормальної поведінки. Основна ідея полягає в тому, що шахрайські 
транзакції мають статистично відмінні характеристики від звичайних 
операцій, що дозволяє ідентифікувати їх через математичне моделювання. 
Класичні статистичні методи включають аналіз середніх значень, 
дисперсії, стандартного відхилення, кореляційних зв’язків між атрибутами 
транзакцій. Наприклад, якщо сума платежу суттєво перевищує середнє 
значення для даного користувача або групи користувачів, така операція може 
бути позначена як потенційно шахрайська. У цьому контексті широко 
застосовуються методи контролю відхилень — Z-score, IQR (Interquartile 
 Лист 
Змін.     мБі41.025.249.248 ПЗ 
Лист № докум. Підпис Дата   13 
 
Range) або Mahalanobis distance, які дозволяють кількісно визначити ступінь 
аномальності транзакції. 
Приклад використання Z-score для виявлення аномальних сум 
транзакцій.  
Метод оцінює, наскільки поточна транзакція відхиляється від 
середнього значення суми операцій користувача. 
Для кожного користувача обчислюється середня сума  і стандартне 
відхилення його транзакцій. Для нової транзакції зі значенням  
розраховується: 
. 
Якщо , транзакція вважається аномальною (рис.1.1). 
 
Рис.1.1. Інтерпритація Z-score на прикладі щільності ймовірності 
розподілу 
 
Приклад міжквартильного розмаху (IQR) для виявлення відхилень.  
Обчислюються перший (Q1) і третій (Q3) квартилі для сум транзакцій, 
після чого визначається міжквартильний розмах (рис.1.2): 
. 
 Лист 
мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   14 
 
 
Рис.1.2. Визначення міжквартильного розмаху (interquartile range -IQR) 
 
Транзакції, які перевищують межі 
 
вважаються підозрілими. 
Іншим напрямом є використання ймовірнісних моделей, таких як 
байєсівський аналіз або метод максимальної правдоподібності. Ці моделі 
дозволяють оцінювати ймовірність того, що певна транзакція належить до 
класу шахрайських, з урахуванням попередніх спостережень. Наприклад, 
байєсівські мережі можуть описувати залежності між ознаками — сумою, 
часом, геолокацією — і на основі історичних даних розраховувати ризик 
шахрайства для нових операцій. 
Для більш складних випадків застосовуються моделі часових рядів, які 
аналізують динаміку змін поведінки користувачів у часі. Методи, такі як 
ARIMA (AutoRegressive Integrated Moving Average) чи Hidden Markov Models, 
дозволяють виявляти нетипові зміни у патернах транзакцій — наприклад, 
раптове зростання активності або різкі коливання обсягів платежів. Такі 
аномалії часто є ознакою спроби шахрайського втручання. 
Важливою перевагою статистичних методів є їх інтерпретованість — 
аналітики можуть легко пояснити причину, з якої транзакція була 
класифікована як підозріла. Проте ці методи мають і недоліки: вони 
 Лист 
   мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   15 
 
ефективні лише за умов стабільного розподілу даних і не завжди здатні 
виявляти складні, багатовимірні закономірності, характерні для сучасного 
фінансового шахрайства. 
Статистичні підходи часто використовуються у поєднанні з 
алгоритмами машинного навчання як попередній етап аналізу або фільтрації 
даних. Вони допомагають виявляти прості аномалії, очищувати дані від 
шумів і формувати набір ознак для подальшої обробки складнішими 
моделями. Таким чином, методи статистичного аналізу залишаються 
важливим інструментом у багаторівневих системах виявлення шахрайства, 
забезпечуючи баланс між точністю, швидкістю та пояснюваністю прийнятих 
рішень. 
Методи машинного навчання (ML) посідають центральне місце у 
сучасних системах виявлення шахрайства, оскільки вони здатні аналізувати 
великі обсяги транзакційних даних і автоматично виявляти приховані 
закономірності, недоступні для класичних статистичних методів. Основна 
ідея полягає в тому, щоб навчити модель розрізняти нормальні та шахрайські 
операції на основі історичних даних, у яких відомо, які транзакції були 
законними, а які — ні. Це дозволяє системі прогнозувати ймовірність 
шахрайства для нових, ще невідомих операцій у режимі реального часу. 
Одним із найпоширеніших підходів є метод дерева рішень (Decision 
Tree). Він формує ієрархічну структуру правил, які розділяють дані за 
певними ознаками, наприклад сумою операції, країною походження або 
часом доби. Кожне розгалуження відповідає перевірці певної умови, а кінцеві 
вершини (листи дерева) визначають, чи є транзакція шахрайською. Цей 
метод легко інтерпретується — аналітики можуть чітко бачити, за якими 
критеріями модель ухвалила рішення, що особливо важливо у фінансовому 
секторі, де прозорість алгоритмів має велике значення. 
Для підвищення точності прогнозування застосовуються ансамблеві 
методи, зокрема Random Forest і Gradient Boosting. Вони поєднують 
 Лист 
мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   16 
 
результати кількох дерев рішень, щоб зменшити ймовірність помилок і 
покращити узагальнюючу здатність моделі. У системах виявлення 
шахрайства такі алгоритми виявилися ефективними, оскільки здатні 
враховувати взаємодію великої кількості факторів, виявляти складні 
нелінійні залежності між ознаками та забезпечувати високу стійкість до 
шуму у даних. 
Іншим важливим напрямом є використання методів класифікації на 
основі логістичної регресії та опорних векторних машин (SVM). Логістична 
регресія є простою, проте потужною моделлю для оцінки ймовірності 
шахрайства, особливо коли дані добре структуровані. Підтримуючі векторні 
машини ефективні для розділення класів у багатовимірному просторі, 
особливо тоді, коли межі між законними та шахрайськими транзакціями є 
складними та перекритими. Обидва підходи широко застосовуються на 
початкових етапах побудови моделей і як базові еталони для порівняння 
складніших алгоритмів. 
Для виявлення прихованих аномалій у даних, де відсутні чітко 
позначені приклади шахрайства, ефективними є неконтрольовані методи 
навчання. Серед них особливе місце займають кластеризація (K-Means, 
DBSCAN) та методи зниження розмірності (PCA, t-SNE). Вони дозволяють 
групувати схожі транзакції й виявляти ті, що відрізняються від основних 
патернів поведінки користувачів. Якщо певна операція потрапляє до 
віддаленого або малочисельного кластера, це може свідчити про потенційне 
шахрайство. 
У більш складних сценаріях використовуються нейронні мережі, 
зокрема глибокі моделі (Deep Learning), які здатні автоматично виділяти 
релевантні ознаки з необроблених даних. Мережі типу Autoencoder 
навчаються відновлювати нормальні транзакції, і будь-яке суттєве 
відхилення між відновленими та вхідними даними може сигналізувати про 
аномалію. Такі архітектури часто застосовуються для аналізу часових рядів 
 Лист 
 мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   17 
 
фінансової активності, поведінкових характеристик користувачів або аналізу 
послідовності транзакцій за допомогою рекурентних мереж (LSTM). 
Значну роль у практичних системах відіграють методи гібридного 
навчання, які поєднують елементи статистичного аналізу, машинного 
навчання та експертних правил. Наприклад, попередньо відібрані статистичні 
ознаки (Z-score, IQR, коефіцієнти кореляції) можуть подаватися як вхід до 
моделі Random Forest або нейронної мережі. Такий підхід дозволяє 
підвищити ефективність системи, адже поєднує аналітичну точність 
класичних методів із гнучкістю машинного навчання. 
Важливим аспектом застосування ML у виявленні шахрайства є 
адаптивність моделей. Оскільки шахрайські схеми постійно змінюються, 
моделі мають регулярно оновлюватися та перевчатися на нових даних. У 
цьому контексті дедалі більше поширення отримують онлайн-алгоритми та 
інкрементальне навчання, які дозволяють оновлювати знання моделі без 
повного перенавчання. Таким чином, системи виявлення шахрайства стають 
самонавчальними й здатними швидко реагувати на нові типи загроз, що 
забезпечує високий рівень безпеки фінансових операцій. 
 
1.3. Аналіз існуючих систем виявлення шахрайських транзакцій 
 Сучасні системи виявлення шахрайства у фінансовій сфері, як правило, 
базуються на комбінації правил, порогових значень, статистичних методів і 
базових алгоритмів класифікації, які розглянуті вище. Основні переваги 
таких підходів: 
• простота впровадження: багато правил можна реалізувати без складних 
моделей машинного навчання, наприклад, обмеження суми транзакції 
або перевірка по чорних списках; 
• швидкість реагування: порогові методи та правила дозволяють 
оперативно блокувати підозрілі операції в реальному часі; 
 Лист 
 мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   18 
 
• прозорість рішень: оператори та аудитори легко розуміють логіку 
спрацювання правил, що важливо для фінансового контролю та 
відповідності нормативним вимогам. 
 Попри свої переваги, класичні системи мають суттєві обмеження: 
• обмежена здатність адаптуватися: правила та порогові значення 
зазвичай фіксовані, і шахраї швидко знаходять способи їх обійти; 
• слабка ефективність при складних схемах шахрайства: статистичні або 
прості правила не можуть виявити складні комбінації ознак, що 
характерні для сучасних фінансових шахрайств; 
• велика кількість помилкових спрацювань (false positives): жорсткі 
пороги часто блокують легітимні транзакції, що знижує зручність 
користування сервісом та довіру клієнтів. 
 Сучасні фінансові середовища характеризуються швидкістю транзакцій 
та високим обсягом даних. Це породжує кілька викликів для існуючих 
систем: 
• обробка великих обсягів даних (Big Data) у реальному часі: класичні 
правила часто не масштабуються і потребують ручного налаштування. 
• динамічність шахрайських схем: шахраї постійно змінюють поведінку, 
створюючи нові типи атак, які не покриваються наявними правилами. 
• нестабільність даних та шум: пропущені значення, некоректні записи 
або нетипові транзакції ускладнюють точне виявлення шахрайства. 
Обмеження традиційних статистичних і порогових методів: 
• лінійність моделей: класичні статистичні методи (лінійна регресія, Z-
score, порогові правила) не здатні виявляти складні нелінійні патерни 
шахрайства. 
• обмежена кількість ознак: правило або поріг зазвичай базується на 
одній-двох ознаках, тоді як шахрайські транзакції часто виявляються 
лише при одночасному аналізі десятків факторів. 
 Лист 
  мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   19 
 
• неадаптивність: при зміні поведінки користувачів або появі нових 
каналів транзакцій правила потребують постійного ручного оновлення. 
 Аналіз показує, що традиційні системи мають швидкість, простоту та 
прозорість, але поступаються за гнучкістю, точністю та здатністю 
адаптуватися до нових шахрайських схем. У сучасному фінансовому 
середовищі, де обсяги даних ростуть експоненційно, а шахрайство стає 
дедалі більш складним і химерним, ці системи стають недостатніми. 
 Для подолання вказаних обмежень актуальним стає використання 
методів машинного навчання (ML). ML-моделі здатні: 
• автоматично навчатися на великих обсягах історичних даних; 
• виявляти складні патерни та взаємозв’язки між числовими, 
категоріальними та поведінковими ознаками; 
• адаптуватися до нових схем шахрайства без постійного ручного 
налаштування. 
 
1.4. Методи машинного навчання, що застосовуються у 
кібербезпеці 
Наведемо опис декількох найважливіших методів машинного навчання, 
які отримали свої широке застосування для класифікаційних задач.  
Класифікаційний алгоритм Дерево рішень (Decision Trees). 
Метод дерева рішень (Decision Tree) є одним із найпоширеніших і 
найінтерпретованіших алгоритмів у машинному навчанні. Його основна ідея 
полягає у поступовому поділі даних на підмножини за допомогою перевірки 
певних умов (правил), які максимізують різницю між класами — наприклад, 
між шахрайськими та легітимними транзакціями. У результаті утворюється 
структура, подібна до дерева: кожна внутрішня вершина (node) відповідає 
перевірці певної ознаки, а кожна гілка (branch) — результату цієї перевірки. 
Кінцеві листи (leaves) містять кінцеве рішення або прогноз, наприклад 
“шахрайство” чи “нормальна операція” (рис.1.3). 
 Лист 
Змін. Лист    мБі41.025.249.248 ПЗ 
№ докум. Підпис Дата   20 
 
 
Рис.1.3. Інтерпритація алгоритму Decision Trees. 
 
Основні терміни, які використовуються для даного алгоритму: 
• кореневий вузол (Root Node): початковий вузол на початку дерева 
рішень, де вся генеральна сукупність або набір даних починає 
розділятися на основі різних ознак або умов; 
• вузли рішень (Decision Nodes) : Вузли, що виникають в результаті 
розщеплення кореневих вузлів, відомі як вузли рішень. Ці вузли 
представляють проміжні рішення або умови в дереві; 
• листові вузли (Leaf Nodes) : вузли, де подальше розділення неможливе, 
що часто вказує на остаточну класифікацію або результат. Листові 
вузли також називають кінцевими вузлами; 
• піддерево (Sub-Tree) : Подібно до того, як підрозділ графа називається 
підграфом, підрозділ цього дерева називається піддеревом. Він 
представляє певну частину дерева рішень; 
• обрізання (Pruning): процес видалення або скорочення певних вузлів у 
дереві для запобігання перенавчанню та спрощення моделі; 
• гілка / піддерево (Branch / Sub-Tree) : Підрозділ цілого називається 
гілкою або піддеревом. Він представляє певний шлях рішень та 
результатів у межах дерева. 
 Лист 
     мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   21 
 
На рис.1.4. наведено діаграму, яка ілюструє застосування алгоритму 
дерева рішень для визначення рішення, чи піти грати в теніс в залежності від 
стану погоди. На діаграмі «дерево» спочатку запитає, яка погода? Сонячно, 
хмарно чи дощить? Якщо так, то воно перейде до наступної характеристики, 
а саме вологості та вітру. Воно знову перевірить, чи є сильний вітер, чи 
слабкий. Якщо вітер слабкий і йде дощ, людина може піти пограти в теніс. 
 
Рис.1.4. Реалізація діаграми для прийняття рішення 
 
Етап навчання моделі. Побудова дерева рішень починається з вибору 
ознаки, яка найкраще розділяє дані за цільовим класом. Для цього 
використовується критерій інформаційного виграшу (Information Gain) або 
зменшення ентропії (Entropy Reduction), який вимірює, наскільки добре поділ 
за певною ознакою зменшує невизначеність у наборі даних. Інші популярні 
критерії — Gini Index або Chi-square statistic. Алгоритм обирає найкращу 
ознаку, розділяє дані, а потім рекурсивно повторює процес для кожної з 
підгруп, доки не буде досягнуто умов зупинки (наприклад, усі елементи у 
вузлі належать до одного класу або глибина дерева перевищує задане 
обмеження). 
Приклад застосування до виявлення шахрайства. У задачі детекції 
шахрайських транзакцій дерево рішень може послідовно перевіряти умови на 
кшталт: 
 Лист 
   мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   22 
 
• “Чи перевищує сума транзакції середнє значення для користувача 
більш ніж у 3 рази?” 
• “Чи здійснена операція з нової IP-адреси?” 
• “Чи час проведення транзакції відрізняється від звичайної активності 
користувача?” 
На основі таких перевірок дерево формує ланцюг логічних рішень. Якщо 
декілька критеріїв одночасно свідчать про аномалію, дерево класифікує 
операцію як потенційно шахрайську. 
Під час побудови дерева рішень алгоритм має вибрати, за якою 
ознакою (feature) найкраще поділити дані в поточному вузлі, щоб 
підмножини, які утворюються, стали максимально “чистими”, тобто містили 
якомога більше прикладів одного класу (наприклад, лише «шахрайство» або 
лише «нормальні транзакції»). Для цього обчислюють міру невизначеності 
або “нечистоти” вузла — і саме тут застосовуються ентропія або індекс 
Джині. 
Ентропія (Entropy) — це поняття, запозичене з теорії інформації (К. 
Шеннон), яке вимірює ступінь хаосу або невизначеності у системі. Формула 
ентропії для випадку двох класів (наприклад, “Fraud” і “Normal”) має вигляд: 
, 
де — частка прикладів класу “Fraud”, — частка прикладів класу 
“Normal”.  
Інтерпретація: якщо усі приклади у вузлі належать до одного класу 
(наприклад, 100% “Normal”), то H=0 — тобто повна впевненість, жодної 
невизначеності. Якщо у вузлі 50% “Fraud” і 50% “Normal”, тоді H=1 — це 
максимально можлива невизначеність. 
При кожному поділі дерева потрібно оцінити, наскільки цей поділ 
зменшив невизначеність у даних. Цей ефект називають інформаційним 
виграшем (Information Gain): 
 Лист 
  мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   23 
 
, 
 де S — поточна множина прикладів, A — ознака, за якою виконується поділ, 
Sv — підмножина, для якої ознака A має значення v,  - вага 
підмножини. 
Якщо поділ за певною ознакою різко зменшує ентропію (тобто нові 
підмножини стали “чистішими”), то інформаційний виграш високий — така 
ознака вважається найкращою для розгалуження дерева. У задачі виявлення 
шахрайства це означає, що, наприклад, поділ за ознакою “географічна 
локація транзакції” може різко зменшити невизначеність, якщо більшість 
шахрайських операцій відбуваються з конкретного регіону. 
Індекс Джині (Gini Impurity) — це інша міра “нечистоти” вузла, яка 
часто використовується замість ентропії через простоту обчислення:  
, 
де pi— частка прикладів класу i у вузлі,  k — кількість класів (у нашому 
випадку, зазвичай 2). 
Інтерпретація: якщо у вузлі всі приклади одного класу → G = 0 (вузол 
“чистий”), якщо класи рівномірно розподілені (50/50) → G = 0.5 
(максимальна нечистота). 
 Приклад. Припустімо, у вузлі є 10 транзакцій: 
• 7 звичайних (“Normal”) 
• 3 шахрайські (“Fraud”). 
Тоді: 
. 
Розрахунок Ентропії: 
. 
 Лист 
     мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   24 
 
Розрахунок індекас Джині: 
. 
 Якщо поділ за певною ознакою (наприклад, “тип карти” або “час 
доби”) розділив ці дані так, що в одному підвузлі залишилися 9 нормальних і 
1 шахрайська транзакція, а в іншому — 1 нормальна і 2 шахрайські, то 
обидва показники суттєво зменшаться, що означає ефективний поділ. 
 У контексті кібербезпеки, особливо у виявленні шахрайських дій, 
критерії Entropy та Gini забезпечують модель математичним способом 
оцінити “інформативність” кожної ознаки. Таким чином, система 
автоматично виявляє, які фактори найсильніше впливають на класифікацію 
(наприклад, “геолокація”, “час”, “середня сума транзакції”), що дозволяє 
будувати точні, інтерпретовані та адаптивні дерева рішень. 
 
Переваги методу. Основною перевагою дерева рішень є зрозумілість і 
пояснюваність результатів. На відміну від більш “чорних” моделей, таких як 
нейронні мережі, дерево дозволяє аналітикам і аудиторам чітко побачити, 
чому саме певна транзакція була позначена як шахрайська. Крім того, метод 
не потребує масштабування ознак, добре працює з даними, що містять як 
числові, так і категоріальні змінні, та може виявляти нелінійні залежності 
між атрибутами. 
Одним із головних недоліків класичних дерев рішень є їхня тенденція 
до перенавчання (overfitting), тобто надмірного підлаштування моделі під 
навчальні дані. Це означає, що дерево рішень може запам’ятати конкретні 
приклади, замість того щоб навчитися узагальнювати закономірності. У 
результаті модель демонструє високу точність на тренувальному наборі, але 
помиляється при класифікації нових, раніше невідомих транзакцій. 
Причина цього явища полягає в самій природі алгоритму: дерево 
продовжує ділити дані, поки не досягне максимальної “чистоти” вузлів 
 Лист 
 мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   25 
 
(тобто кожен лист містить транзакції лише одного класу). Якщо не 
застосовувати обмежень, дерево може розгалужуватися аж до того рівня, 
коли кожен лист відповідає окремому запису з навчального набору. Це 
створює “жорстку” модель, яка реагує на випадкові флуктуації у даних — 
наприклад, на одиничні аномалії або шум. 
Приклад перенавчання у контексті виявлення шахрайства. 
Розглянемо практичну ситуацію. Припустімо, ми тренуємо дерево 
рішень на історії фінансових транзакцій, де серед 10 000 операцій лише 150 
визнано шахрайськими. Алгоритм може створити дуже глибоке дерево, яке 
виявлятиме кожну з цих 150 операцій, базуючись на випадкових комбінаціях 
ознак — наприклад, “якщо сума між 498.20 та 499.10, IP-адреса починається 
з 192.168.1.*, а час операції 23:01–23:03, тоді шахрайство”. 
На тренувальних даних це дерево покаже майже 100% точність, але 
при застосуванні до нових транзакцій така комбінація ознак може ніколи не 
повторитися. У результаті дерево не виявить реальні нові шахрайські 
операції, а лише “впізнає” старі випадки — тобто модель погано узагальнює 
знання. 
Обґрунтування проблеми. Перенавчання у деревах рішень особливо 
помітне у фінансових наборах даних, які: 
• високорозмірні (мають десятки або сотні атрибутів — тип картки, 
геолокація, пристрій, середня сума тощо), 
• незбалансовані (частка шахрайських операцій дуже мала — зазвичай 
<1%), 
• шумні (окремі транзакції можуть бути помилково класифіковані або 
містити неточні значення). 
Алгоритм дерева сприймає ці випадкові шуми як значущі 
закономірності, тому його “гілки” починають моделювати не реальні 
патерни, а випадкові флуктуації — що і є сутністю перенавчання. 
Методи боротьби з перенавчанням у Decision Trees 
 Лист 
Змін. Лист    мБі41.025.249.248 ПЗ 
№ докум. Підпис Дата   26 
 
Щоб зменшити ризик перенавчання, застосовують кілька технік: 
1. Обрізання дерева (Pruning) — видалення гілок, які мало впливають на 
кінцевий результат (після аналізу їхньої статистичної значущості). 
2. Обмеження глибини дерева (max_depth) — задається максимальна 
кількість рівнів, щоб уникнути надмірної деталізації. 
3. Мінімальна кількість прикладів у вузлі (min_samples_leaf) — запобігає 
створенню гілок, що базуються лише на 1–2 прикладах. 
4. Крос-валідація — оцінка узагальнюючої здатності дерева на 
незалежних підмножинах даних. 
Ці підходи частково вирішують проблему, проте залишають 
обмеження: одне дерево завжди спирається лише на локальні оптимальні 
рішення і сильно залежить від конкретних навчальних даних. 
Random Forest. Саме для подолання цих недоліків був розроблений 
ансамблевий метод Random Forest, який поєднує велику кількість дерев 
рішень, кожне з яких навчається на випадковій підмножині даних і 
випадковій підмножині ознак (рис.1.5).  
 
Рис.1.5. Інтерпритація алгоритму Random Forest 
 
Такий підхід забезпечує: 
• зменшення дисперсії (варіативності) моделі; 
 Лист 
     мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   27 
 
• усереднення результатів окремих дерев, що усуває вплив випадкових 
шумів; 
• покращення узагальнюючої здатності — модель менше “запам’ятовує” 
окремі приклади, натомість виявляє стабільні закономірності. 
Таким чином, Random Forest долає головний недолік класичних дерев 
— схильність до перенавчання — і забезпечує більш надійну, стійку систему 
виявлення шахрайських транзакцій у динамічних і складних фінансових 
середовищах. 
Метод Random Forest (випадковий ліс) є одним із найпотужніших 
інструментів машинного навчання для класифікації та регресії. Його головна 
ідея полягає в тому, щоб поєднати велику кількість дерев рішень, кожне з 
яких працює незалежно, а кінцеве рішення приймається на основі 
голосування (для класифікації) або усереднення (для регресії). Завдяки цьому 
підходу модель зменшує ризик перенавчання, підвищує стійкість до шуму та 
покращує здатність узагальнювати результати. 
Під час побудови кожного дерева в лісі застосовується техніка bootstrap 
aggregation (скорочено — bagging). Це означає, що для кожного дерева 
випадково обирається підмножина навчальних даних з повторенням (тобто 
одні й ті самі приклади можуть потрапити до вибірки кілька разів). Такий 
підхід створює варіативність між деревами, що дозволяє кожному з них 
“бачити” дещо різну картину даних. Як наслідок, дерева стають менш 
корельованими між собою, а їхні помилки взаємно компенсуються при 
фінальному голосуванні. 
Крім вибірки даних, Random Forest випадковим чином обирає 
підмножину ознак (features) для побудови кожного вузла дерева. Це так 
званий принцип random feature selection. Завдяки цьому модель уникає 
ситуацій, коли одне або кілька найсильніших предикторів (наприклад, сума 
транзакції чи геолокація) домінують у всіх деревах, що призводило б до 
однакової структури та високої кореляції результатів. Випадковий вибір 
 Лист 
 мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   28 
 
ознак забезпечує більшу різноманітність у “лісі”, що підвищує його 
узагальнюючу здатність. 
Після навчання кожне дерево в лісі голосує щодо класу нової транзакції 
— шахрайська вона чи ні. Остаточне рішення приймається за принципом 
більшості голосів (majority voting). Наприклад, якщо 73 з 100 дерев 
класифікували операцію як шахрайську, то весь Random Forest виносить той 
самий вердикт. Такий підхід забезпечує статистичну стабільність — навіть 
якщо кілька дерев помиляються через шум або аномалії, більшість із них 
дають правильний результат. 
У контексті виявлення шахрайських дій Random Forest має значні 
переваги. По-перше, він добре працює з незбалансованими наборами даних, 
які часто зустрічаються у фінансовій сфері, де кількість шахрайських 
операцій є незначною часткою від загального обсягу транзакцій. По-друге, 
метод ефективно обробляє як числові, так і категоріальні змінні, не 
потребуючи масштабування даних або попереднього нормування. По-третє, 
він може виявляти складні нелінійні взаємозв’язки між змінними, які не під 
силу лінійним моделям. 
Важливим аспектом є також інтерпретованість результатів. Хоча 
ансамбль дерев здається “чорним ящиком”, Random Forest дозволяє оцінити 
важливість кожної ознаки (feature importance). Наприклад, у системі 
моніторингу транзакцій можна визначити, які фактори найбільше впливають 
на виявлення шахрайства: сума операції, країна походження, частота покупок 
чи тип пристрою користувача. Це дає змогу не лише підвищити точність 
моделі, а й зрозуміти логіку прийняття рішень. 
Ще однією перевагою Random Forest є його стійкість до шуму та 
аномалій. Оскільки кожне дерево навчається на різних підмножинах даних, 
випадкові помилки або некоректні записи не мають вирішального впливу на 
загальний результат. Така властивість робить Random Forest надзвичайно 
 Лист 
 мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   29 
 
корисним у реальних умовах, коли вхідні дані можуть бути неповними, 
суперечливими або спотвореними. 
Завдяки своїй ефективності, Random Forest широко використовується у 
системах виявлення фінансового шахрайства, зловживань з кредитними 
картками, фішингу, та підозрілих поведінкових патернів користувачів. 
Алгоритм не лише автоматизує процес аналізу великих обсягів даних, а й 
зменшує кількість помилкових спрацювань, що безпосередньо підвищує 
якість прийняття рішень у фінансових і кібербезпекових системах. Таким 
чином, Random Forest є одним із найефективніших методів, що поєднує 
статистичну надійність, гнучкість і високу точність при виявленні 
шахрайських дій. 
Метод XGBoost (Extreme Gradient Boosting) є однією з 
найефективніших реалізацій алгоритму градієнтного бустингу дерев рішень 
(Gradient Boosted Decision Trees, GBDT). Його суть полягає у побудові 
ансамблю слабких моделей (дерев рішень), які навчаються послідовно — 
кожне наступне дерево виправляє помилки попередніх. Таким чином, 
XGBoost формує потужну композицію моделей, що поступово мінімізує 
функцію втрат і досягає високої точності класифікації навіть на складних та 
незбалансованих наборах даних. 
На відміну від методу Random Forest, який використовує незалежні 
дерева, у XGBoost кожне нове дерево додається до моделі з урахуванням 
помилок попередніх. Тобто модель не просто усереднює результати, а 
«підсилює» слабкі прогнози, концентруючись на тих прикладах, які раніше 
були класифіковані неправильно. Такий підхід забезпечує кращу здатність 
моделі вловлювати складні нелінійні закономірності та взаємозв’язки між 
ознаками. 
Ключовим елементом XGBoost є використання градієнтного спуску для 
оптимізації. На кожній ітерації алгоритм обчислює градієнт функції втрат за 
поточними передбаченнями та створює нове дерево, яке мінімізує цей 
 Лист 
 мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   30 
 
градієнт. У такий спосіб модель поступово «рухається» до найкращого 
рішення. Крім того, у XGBoost реалізовано другий порядок апроксимації 
(Гессіан), що враховує не лише похибку, а й криву зміни функції втрат, що 
значно прискорює збіжність і підвищує стабільність алгоритму. 
Важливою перевагою XGBoost є ефективна регуляризація, яка 
допомагає уникнути перенавчання. Алгоритм містить параметри L1- та L2-
регуляризації, що контролюють складність дерев (кількість вузлів і глибину), 
запобігаючи надмірному підлаштуванню під навчальні дані. Це особливо 
важливо у задачах виявлення шахрайства, де дані часто містять шум і 
випадкові кореляції. Завдяки цьому XGBoost демонструє чудовий баланс між 
точністю і здатністю узагальнення. 
Ще однією важливою особливістю є висока продуктивність 
реалізації. XGBoost оптимізовано для багатоядерних процесорів, має 
підтримку паралельних обчислень, інтелектуальне керування пам’яттю, а 
також здатність обробляти великі набори даних (Big Data). Він також 
підтримує обробку пропущених значень, автоматичний вибір напрямку при 
розгалуженні дерева і масштабування до розподілених середовищ, що робить 
його ідеальним для фінансових систем реального часу. 
У контексті виявлення шахрайських транзакцій XGBoost показує 
надзвичайно високі результати. Завдяки своїй здатності враховувати 
взаємодії між змінними, алгоритм може виявляти тонкі шаблони поведінки 
користувачів, які є типовими для шахраїв. Наприклад, модель може виявити 
комбінацію таких факторів, як нетипова геолокація, нічний час проведення 
операції та новий пристрій користувача — навіть якщо кожен із них окремо 
не є критичним. 
Крім того, XGBoost має високий рівень інтерпретованості результатів 
через показники feature importance та SHAP values (SHapley Additive 
exPlanations), які дозволяють пояснити, як саме кожна ознака вплинула на 
рішення моделі. Це особливо важливо для аналітиків з кібербезпеки, які 
 Лист 
мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   31 
 
мають не лише виявити підозрілу транзакцію, а й обґрунтувати причину 
спрацювання системи. Таким чином, XGBoost поєднує точність, 
продуктивність і прозорість — ключові характеристики, необхідні для 
побудови сучасних систем протидії фінансовим шахрайствам. 
 
1.5. Висновки 
Методи машинного навчання, зокрема Random Forest та XGBoost, 
демонструють високий потенціал у сфері виявлення шахрайських транзакцій 
завдяки здатності обробляти великі обсяги даних і виявляти складні нелінійні 
взаємозв’язки між ознаками транзакцій. На відміну від традиційних 
порогових або статистичних систем, ці алгоритми автоматично навчаються 
на історичних даних, що дозволяє системам адаптуватися до нових схем 
шахрайства без необхідності ручного оновлення правил. 
Random Forest забезпечує стійкість і узагальненість моделі завдяки 
об’єднанню великої кількості дерев рішень, кожне з яких навчається на 
різних підмножинах даних та ознак. Це дозволяє моделі ефективно усувати 
вплив шуму та аномалій, а також зменшувати ймовірність помилкових 
спрацювань. Водночас, XGBoost забезпечує високу точність та гнучкість 
завдяки градієнтному бустингу та регуляризації, що дозволяє системі 
концентруватися на складних або рідкісних випадках шахрайства, які важко 
виявити класичними методами. 
Таким чином, застосування методів машинного навчання є 
перспективним і ефективним підходом у сучасних фінансових і 
кібербезпекових системах. Вони поєднують високу продуктивність, точність 
та здатність узагальнювати знання, що робить їх оптимальним інструментом 
для автоматизованого виявлення шахрайських транзакцій у середовищах з 
великими, динамічними та різнорідними наборами даних. 
 Лист 
  мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   32 
 
2. РОЗРОБКА СИСТЕМИ ВИЯВЛЕННЯ ШАХРАЙСЬКИХ 
ТРАНЗАКЦІЙ МЕТОДАМИ ML 
 
2.1. Постановка задачі та її формалізація  
У сучасних фінансових системах одним із ключових завдань 
кібербезпеки є виявлення шахрайських транзакцій у режимі реального часу. 
Традиційні методи, що базуються на правилах та порогових значеннях, 
виявляють лише очевидні аномалії і не здатні ефективно реагувати на 
динамічні та складні схеми шахрайства. Зважаючи на зростання обсягів 
транзакцій та різноманітність каналів фінансових операцій, виникає потреба 
у гнучких автоматизованих системах, здатних швидко і точно класифікувати 
транзакції як легітимні або шахрайські. 
Задача виявлення шахрайських транзакцій формалізується як задача 
класифікації: для кожної транзакції , описаної набором ознак 
(сума, час, геолокація, тип пристрою, історія активності 
користувача тощо), необхідно визначити її клас , де 0 — легітимна 
транзакція, 1 — шахрайська. Мета системи полягає у побудові функції 
, яка максимально точно відображає ймовірність шахрайства для 
нових транзакцій. 
Однією з особливостей задачі є несиметрія класів, коли частка 
шахрайських транзакцій у загальному обсязі даних є дуже малою (іноді 
менше 1%). Це створює додаткові складнощі для класичних алгоритмів 
класифікації, оскільки вони можуть демонструвати високу точність на фоні 
легітимних транзакцій, але пропускати шахрайські операції. Тому при 
формалізації задачі необхідно враховувати метрики, які коректно оцінюють 
якість класифікації в умовах незбалансованих даних (precision, recall, F1-
score, ROC-AUC). 
Для побудови ефективної системи доцільно застосовувати методи 
машинного навчання, такі як Random Forest та XGBoost. Random Forest 
 Лист 
Змін. Лист    мБі41.025.249.248 ПЗ 
№ докум. Підпис Дата   33 
 
дозволяє забезпечити стійкість і узагальненість моделі завдяки ансамблю 
дерев, а XGBoost забезпечує високу точність класифікації і здатність 
навчатися на складних патернах, поступово мінімізуючи функцію втрат за 
допомогою градієнтного бустингу. Обидва методи дозволяють автоматично 
обробляти великі обсяги даних і враховувати як числові, так і категоріальні 
ознаки транзакцій. 
У формальному вигляді, процес навчання моделі можна представити як 
оптимізацію функції втрат , яка вимірює розбіжність між 
передбаченими класами  і реальними мітками . Модель навчається на 
історичних даних , а потім застосовується для прогнозування 
ймовірності шахрайства у нових транзакціях. Особливу увагу приділяють 
регуляризації та налаштуванню гіперпараметрів, щоб уникнути перенавчання 
та забезпечити стабільність моделі на реальних даних. 
Отже, постановка задачі виявлення шахрайських транзакцій включає 
визначення цільової змінної, формалізацію множини ознак, вибір метрики 
якості класифікації та підбір алгоритмів машинного навчання, здатних 
працювати з великою кількістю даних, враховувати нелінійні взаємозв’язки 
та забезпечувати високу точність класифікації в умовах невеликої частки 
шахрайських транзакцій. Така постановка є основою для подальшого 
проектування системи та вибору конкретної архітектури алгоритму в 
наступних підрозділах. 
 
2.2. Опис та обгрунтування архітектури системи 
Машинне навчання з учителем використовує алгоритми для навчання 
моделі пошуку закономірностей у наборі даних з мітками та ознаками, а 
потім використовує навчену модель для прогнозування міток на ознаках 
нового набору даних (рис.2.1). 
 Лист 
  мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   34 
 
 
Рис.2.1. Принцип застосування моделі машинного навчання для прогнозу 
транзакцій. 
 
Архітектура системи виявлення шахрайських транзакцій розробляється 
як багаторівнева, модульна система, що забезпечує обробку, аналіз та 
класифікацію транзакцій у реальному часі. Основною метою є створення 
потужної та гнучкої інфраструктури, здатної обробляти великі обсяги даних, 
інтегрувати різні джерела інформації та забезпечувати швидке прийняття 
рішень для запобігання шахрайству. 
Перший рівень архітектури відповідає за збір даних. Система отримує 
транзакції з різних джерел: банківських платіжних систем, онлайн-сервісів, 
мобільних додатків та POS-терміналів. Для кожної транзакції збираються 
числові та категоріальні ознаки: сума, дата і час операції, тип платіжного 
засобу, геолокація, IP-адреса, пристрій користувача, історія попередніх 
транзакцій та інші поведінкові характеристики. 
Другий рівень включає передобробку та нормалізацію даних. Цей 
модуль відповідає за видалення пропущених та некоректних значень, 
кодування категоріальних ознак, нормалізацію числових ознак, а також 
зменшення розмірності при великій кількості характеристик. На цьому етапі 
також реалізується балансування класів, наприклад, за допомогою технік 
oversampling або undersampling, щоб компенсувати низьку частку 
шахрайських транзакцій у загальному наборі. 
 Лист 
   мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   35 
 
Третій рівень відповідає за екстракцію ознак (feature engineering). Для 
підвищення точності моделей тут формуються нові ознаки: середня сума 
транзакцій за певний період, частота операцій з конкретного пристрою, 
відхилення від типових патернів поведінки користувача, показники ризику 
для конкретних географічних регіонів тощо. Ці ознаки дозволяють 
алгоритмам машинного навчання більш ефективно розпізнавати складні 
шахрайські патерни. 
Четвертий рівень — блок машинного навчання. На цьому етапі 
реалізуються алгоритми Random Forest та XGBoost для класифікації 
транзакцій. Random Forest забезпечує стабільність і усереднення результатів 
за допомогою багатьох дерев, а XGBoost дозволяє фокусуватися на рідкісних 
або складних випадках шахрайства. Тут також застосовуються налаштування 
гіперпараметрів, крос-валідація та регуляризація для мінімізації 
перенавчання і підвищення узагальнювальної здатності моделей. 
П’ятий рівень архітектури передбачає оцінку ймовірності шахрайства 
та прийняття рішення. Кожна транзакція отримує скоринговий бал або 
ймовірність належності до класу шахрайських операцій. На основі цього балу 
система приймає рішення: допустити транзакцію, відправити її на додаткову 
перевірку або автоматично заблокувати. Додатково, система може 
інтегрувати порогові правила для додаткової перевірки високоризикових 
транзакцій. 
Шостий рівень відповідає за зберігання даних та історію транзакцій. 
Архітектура передбачає використання баз даних високої продуктивності 
(SQL/NoSQL), що дозволяє зберігати як початкові, так і оброблені дані, 
результати класифікації та логування рішень системи. Це забезпечує 
аналітичну прозорість та можливість повторного навчання моделей на нових 
даних. 
Сьомий рівень — моніторинг і управління моделями. Цей модуль 
відслідковує точність моделей на нових даних, оцінює drift (зміни патернів 
 Лист 
Змін.     мБі41.025.249.248 ПЗ 
Лист № докум. Підпис Дата   36 
 
шахрайства) та пропонує періодичне перенавчання моделей. Це гарантує, що 
система залишається актуальною та здатною реагувати на нові типи 
шахрайства. 
Восьмий рівень — інтерфейс користувача та аналітичні панелі. 
Оператори та аналітики отримують можливість відстежувати підозрілі 
транзакції, переглядати скорингові бали, причини класифікації та важливість 
ознак. Це дозволяє не лише автоматично блокувати шахрайство, а й 
аналізувати тренди та приймати стратегічні рішення. 
Дев’ятий рівень архітектури включає інтеграцію з зовнішніми 
системами безпеки. Система може надсилати сповіщення до банківських 
платформ, служб кібербезпеки або автоматизованих процедур блокування 
карток та облікових записів. Така інтеграція дозволяє реалізувати 
повноцінний цикл виявлення та реагування на шахрайські операції. 
Десятий рівень архітектури передбачає масштабованість та 
продуктивність системи. Використання модульної архітектури, паралельних 
обчислень та розподілених середовищ дозволяє обробляти великі потоки 
транзакцій у реальному часі, одночасно забезпечуючи високу точність 
моделей та швидкість прийняття рішень. Це робить систему гнучкою та 
готовою до інтеграції у будь-які сучасні фінансові інфраструктури. 
Описану архітектуру представлено на рис.2.2., де представлено 
життєвий цикл машинного навчання як структурований процес, який 
визначає, як розробляються, розгортаються та підтримуються моделі 
машинного навчання (ML). Він складається з низки кроків, які забезпечують 
точність, надійність та масштабованість моделі. 
 Лист 
  мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   37 
 
 
Рис.2.2. Архітектура системи як життєвий цикл моделі машиного навчання 
 
Щоб знайти закономірності та характеристики, приховані в даних, 
використовується дослідницький аналіз даних (Exploratory Data Analysis - 
EDA), щоб виявити ідеї та зрозуміти структуру набору даних. Під час EDA 
надаються закономірності, тенденції та ідеї, які можуть бути невидимі 
неозброєним оком. Ця цінна інформація може бути використана для 
прийняття обґрунтованих рішень. 
Основні характеристики дослідницького аналізу даних можна описати як: 
• дослідження - використовуються статистичні та візуальні інструменти 
для дослідження закономірностей у даних; 
• закономірності та тенденції - визначаються основні закономірності, 
тенденції та потенційні проблеми в наборі даних. 
Кожен крок є важливим для побудови успішної моделі машинного 
навчання, яка може надати цінну аналітику та прогнози. Дотримуючись 
життєвого циклу машинного навчання, ми можемо вирішувати складні 
проблеми. 
 
2.3. Підготовка даних для машинного навчання 
Підготовка даних є ключовим етапом у розробці системи виявлення 
шахрайських транзакцій, оскільки якість навчального набору безпосередньо 
 Лист 
    мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   38 
 
впливає на точність і стійкість моделей машинного навчання. На цьому етапі 
визначаються джерела даних, здійснюється їхня очистка, нормалізація та 
формування набору ознак, які максимально інформативні для алгоритмів 
Random Forest і XGBoost. 
Джерела даних можуть включати внутрішні та зовнішні фінансові 
потоки. Внутрішні дані надходять із банківських платіжних систем, онлайн-
банкінгу, POS-терміналів та мобільних додатків. Зовнішні дані можуть 
містити чорні списки шахраїв, відомості про підозрілі IP-адреси, геолокаційні 
дані, аналітичні бази третіх сторін та відкриті джерела. Об’єднання різних 
джерел дозволяє створити багатофакторну картину транзакцій, що 
підвищує ефективність моделей ML. В даній роботі буде використано 
відкритий датасет, розміщений на платформі Kaggle. 
Датасет Credit Card Fraud Detection (Kaggle) є одним із 
найпопулярніших наборів даних, який використовується для моделювання та 
дослідження задач виявлення шахрайських транзакцій. Його створено на 
основі реальних транзакцій європейських власників кредитних карток, 
зафіксованих у вересні 2013 року. Набір даних є анонімізованим — з 
міркувань безпеки та конфіденційності всі ознаки, окрім суми транзакції 
(Amount) і часової мітки (Time), були перетворені за допомогою методу 
головних компонент (PCA — Principal Component Analysis). У результаті 
маємо 28 змінних (V1 – V28), які не мають конкретного змістового 
тлумачення, але зберігають статистичну структуру даних. 
Загалом датасет містить 284 807 записів, з яких 492 (0.172%) є 
шахрайськими, тобто дані мають сильний дисбаланс класів. Така 
диспропорція створює типову проблему для алгоритмів машинного навчання, 
які схильні орієнтуватися на більшість ігноруючи рідкісні класи. Тому 
зазвичай застосовують методи oversampling (наприклад, SMOTE), 
undersampling, або балансування ваг класів у процесі навчання. 
 Лист 
Змін.     мБі41.025.249.248 ПЗ 
Лист № докум. Підпис Дата   39 
 
Ознака Time показує кількість секунд, що минули від початку збору 
даних до моменту конкретної транзакції, а Amount — суму операції. Ці два 
показники часто нормалізуються (через масштабування StandardScaler або 
MinMaxScaler), щоб уникнути переваги великих чисел у моделі. Поле Class є 
міткою (label), де 1 означає шахрайство, а 0 — звичайну операцію. 
Даний набір є стандартним еталоном для тестування моделей 
машинного навчання у сфері фінансової кібербезпеки. Завдяки великому 
обсягу реальних транзакцій і наявності точно позначених випадків 
шахрайства, він широко використовується для порівняння ефективності 
алгоритмів машинного навчання 
Ще однією важливою характеристикою цього датасету є необхідність 
роботи з аномаліями та незбалансованими даними. Це дозволяє перевірити на 
практиці методи аномалійного аналізу, оцінки чутливості моделей (precision, 
recall, F1-score, AUC-ROC) і техніки крос-валідації. Особливу увагу при 
цьому приділяють мінімізації хибнопозитивних результатів (false positives), 
оскільки надмірне блокування законних транзакцій може завдати збитків 
користувачам і банківським установам. 
Таким чином, Credit Card Fraud Detection Dataset є не лише практично 
цінним інструментом для побудови систем виявлення шахрайства, а й 
репрезентативною моделлю реального середовища електронних платежів, що 
дозволяє досліджувати ефективність різних підходів — від класичних 
статистичних до сучасних ансамблевих і глибоких моделей машинного 
навчання. 
На етапі очистки даних (data cleaning) відбувається підготовка набору 
даних до подальшого навчання моделі машинного навчання. Це один із 
найважливіших етапів попередньої обробки, адже якість вхідних даних 
безпосередньо впливає на точність і стабільність моделі. У контексті 
виявлення шахрайських транзакцій, де навіть невелика похибка може 
призвести до помилкових рішень — наприклад, блокування легітимного 
 Лист 
мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   40 
 
користувача або пропуску шахрайства — чистота та коректність даних є 
критичною. 
Перший крок полягає у виявленні та видаленні пропущених значень 
(missing values). У наборі Credit Card Fraud Detection таких значень немає, але 
в реальних банківських даних часто трапляються відсутні записи — 
наприклад, неповна інформація про геолокацію, тип пристрою, або відсутній 
час транзакції. Такі пропуски можна обробляти різними способами: 
• видаленням записів, якщо їх частка незначна; 
• заповненням середніми або медіанними значеннями; 
• використанням методів прогнозування (наприклад, KNN Imputer). 
Другим важливим завданням є виявлення дублікатів — записів, які 
повторюються через технічні помилки під час збереження транзакцій. Якщо 
такі дублікати не видалити, модель може «навчитися» неправильно, 
сприймаючи повторювані операції як закономірність.  
При застосуванні такого програмного інструментарію, як мова Python, 
це легко реалізувати при застосуванні спеціалізованої команди. Наприклад, 
для набору даних data – реалізується наступним чином: 
. 
Третім етапом є виявлення та обробка аномалій (outliers). У контексті 
транзакцій це можуть бути операції з надзвичайно великою сумою або 
частотою, які не відповідають звичайним поведінковим шаблонам 
користувача. Наприклад, якщо користувач зазвичай здійснює покупки на 20–
50 доларів, а раптом відбувається транзакція на 5000 доларів у незвичній 
локації, це може бути аномалією. Такі дані аналізуються статистичними 
методами (наприклад, за допомогою меж інтерквартильного розмаху — IQR): 
 
 Лист 
  мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   41 
 
Цей код видаляє транзакції з аномально великими або малими сумами, 
які можуть спотворювати навчання моделі. 
Також важливо проводити перевірку типів даних (чи всі числові поля 
дійсно є числовими, а не рядковими), та перетворення форматів дат і часу для 
подальшої побудови часових ознак. 
Таким чином, очищення даних — це не лише технічний процес, а й 
етап забезпечення надійності та достовірності майбутніх аналітичних 
результатів. Після якісної очистки система машинного навчання отримує 
репрезентативний, збалансований і узгоджений набір даних, що є необхідною 
умовою для точного виявлення шахрайських транзакцій. 
Нормалізація числових ознак — це етап попередньої обробки даних, 
який полягає у масштабуванні числових значень до певного діапазону або 
приведенні їх до спільного масштабу. Це особливо важливо, коли різні 
ознаки мають різні одиниці вимірювання або значення, що відрізняються на 
кілька порядків. Без нормалізації такі дисбаланси можуть призвести до того, 
що моделі машинного навчання (особливо ті, що базуються на відстані або 
градієнтних обчисленнях, як Logistic Regression, SVM, Neural Networks) 
надаватимуть надмірну вагу ознакам із великими числовими значеннями, 
ігноруючи менш масштабні, але важливі. 
У випадку набору даних Credit Card Fraud Detection нормалізація 
стосується насамперед двох ознак: 
• Time — час, що минув від початку збору даних (у секундах); 
• Amount — сума транзакції. 
Інші змінні (V1–V28) уже є результатом PCA, тому вони за 
замовчуванням перебувають у стандартизованому масштабі. 
Найпоширеніші підходи до нормалізації: 
1. Стандартизація (Standardization) — приводить дані до нульового 
середнього значення та одиничного стандартного відхилення за 
наступним перетворенням: 
 Лист 
 мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   42 
 
, 
де µ — середнє значення ознаки, а σ — стандартне відхилення. 
У Python це можна реалізувати так: 
 
2. Наступний підхід для реалізації нормалізації даних – це Мін–макс 
нормалізація (MinMax Scaling) — масштабує значення в діапазон [0, 1]: 
. 
У Python це можна реалізувати так: 
 
Як приклад, якщо суми транзакцій у вибірці варіюються від 0.01 до 
10,000 у.од., після застосування MinMaxScaler значення будуть приведені до 
інтервалу від 0 до 1, що дозволяє уникнути домінування великих сум у 
процесі навчання. 
Таким чином, нормалізація — це ключовий крок для підвищення 
стабільності, швидкості збіжності та точності моделей машинного навчання. 
Вона забезпечує рівний внесок усіх числових ознак у процес навчання й 
покращує загальну узагальнювальну здатність системи виявлення 
шахрайських транзакцій. 
 Лист 
     мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   43 
 
Кодування категоріальних ознак. У багатьох задачах машинного 
навчання, зокрема у виявленні шахрайських транзакцій, дані містять 
категоріальні (номінальні або порядкові) ознаки, наприклад: 
• тип операції ("переказ", "зняття готівки", "оплата товару"), 
• регіон клієнта ("EU", "US", "Asia"), 
• тип пристрою ("мобільний", "браузер") та ін. 
Більшість алгоритмів (наприклад, логістична регресія, SVM, нейронні 
мережі) не можуть безпосередньо працювати з текстовими чи символьними 
змінними. Тому категоріальні ознаки необхідно перетворити у числову 
форму, зберігаючи при цьому їхню інформативність. 
Кодування категоріальних ознак реалізується за допомогою методів 
Label Encoding або One-Hot Encoding. Наприклад, тип платіжного засобу, 
країна походження або тип пристрою перетворюються на числові вектори, 
які можуть ефективно оброблятися моделями Random Forest та XGBoost. 
Target encoding дозволяє врахувати частоту шахрайських випадків для кожної 
категорії, підвищуючи інформативність ознаки. 
Label Encoding (Порядкове кодування). Кожне унікальне значення 
категорії замінюється на унікальний цілий код, наприклад: 
 
Програмна реалізація на Python має наступний вид: 
 
Переваги такого кодування: 
 Лист 
   мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   44 
 
• простота реалізації, мінімум ресурсів. 
До недоліків можна віднести наступне: 
• модель може інтерпретувати коди як порядкові (0 < 1 < 2), що не 
завжди коректно, тобто одне значення завжди буде менше або більше 
якогось іншого. 
Типово використовується у деревоподібних моделях, таких як Decision Tree, 
Random Forest, XGBoost, які не чутливі до числових масштабів. 
One-Hot Encoding (одноразове кодування). Для кожного можливого 
значення категорії створюється окремий бінарний стовпець, наприклад: 
 
Програмна реалізація на Python має наступний вид: 
 
Переваги такого кодування: 
• не створює хибного порядку між категоріями; 
• добре працює з моделями, чутливими до чисел (логістична регресія, 
SVM, нейромережі). 
Недоліки - при великій кількості категорій призводить до зростання 
розмірності (“curse of dimensionality”). 
 Окрім того можуть застосовувати Target Encoding (Цільове або середнє 
кодування), Frequency / Count Encoding (частотне кодування), Binary 
Encoding 
 
 Лист 
     мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   45 
 
Обробка незбалансованих класів — ще один важливий аспект 
підготовки даних. Оскільки шахрайські транзакції зазвичай становлять 
менше 1% від загальної кількості, застосовуються методи oversampling 
(SMOTE, ADASYN) або undersampling легітимних транзакцій. Це дозволяє 
уникнути ситуацій, коли модель просто передбачає всі транзакції як 
легітимні, і підвищити точність класифікації рідкісних випадків. 
Наприклад, у банківських транзакціях: 
 
Модель, що просто передбачає “усі операції — звичайні”, вже матиме 
точність 98%, але не виявлятиме шахрайство, тобто не виконуватиме 
реального завдання. Тому головна мета — збалансувати вплив обох класів 
під час навчання моделі. 
Існує три групи методів: 
1. Методи, засновані на даних (Data-level methods) 
– змінюють розподіл класів у навчальній вибірці. 
2. Методи, засновані на моделі (Algorithm-level methods) 
– змінюють принцип навчання самої моделі (наприклад, ваги класів). 
3. Комбіновані методи (Hybrid) 
– поєднують обидва підходи. 
 
Методи на рівні даних: Oversampling (перевибірка меншості) - 
збільшення кількості прикладів рідкісного (шахрайського) класу. 
Random Oversampling. Просте дублювання випадкових прикладів з 
меншого класу. Приклад реалізації на на Python має наступний вид: 
 
 Лист 
   мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   46 
 
Переваги - простота реалізації, зберігає інформацію меншинного класу. 
До недоліків відноситься можливість перенавчання, бо дублює одні й ті ж 
записи. 
SMOTE (Synthetic Minority Oversampling Technique). Створює нові 
синтетичні приклади меншого класу шляхом інтерполяції між існуючими 
зразками: 
 
Методи на рівні моделі - ваги класів (Class Weighting). Задається більша 
вага втрат для рідкісного класу, щоб модель більше “зважала” на нього: 
Для деревоподібних моделей (XGBoost, CatBoost, LightGBM) може бути 
застосована наступна конструкція: 
 
Переваги: не змінює дані; просте й ефективне рішення. 
Недоліки такого підходу: не завжди достатньо при екстремальному 
дисбалансі. 
Побудова ознак (feature engineering) включає формування нових 
індикаторів поведінки користувача та характеристик транзакцій. Наприклад, 
середня сума транзакцій за останній тиждень, частота операцій з нового 
пристрою, відхилення від типової геолокації або частота операцій у 
нестандартний час. Ці ознаки дозволяють моделям ML виявляти складні 
шахрайські патерни, які не видно при аналізі окремих первинних ознак. 
Основні етапи побудови ознак: 
1. Збір і агрегація сирих даних (Raw features) 
 Лист 
Змін. Лист № докум. Підпис мБі41.025.249.248 ПЗ 
Дата   47 
 
• транзакційна інформація (сума, час, тип, канал); 
• дані про клієнта (вік, країна, пристрій, історія операцій); 
• зовнішні джерела (геолокація, IP-адреси, чорні списки тощо). 
2. Попередня обробка (Preprocessing) 
• заповнення пропусків, 
• кодування категоріальних змінних, 
• нормалізація числових ознак, 
• усунення викидів (outliers). 
3. Створення нових ознак (Feature creation) 
o побудова похідних змінних, що краще відображають поведінку 
користувача. 
4. Відбір найінформативніших ознак (Feature selection) 
o виключення надлишкових або слабко корельованих змінних 
Також у feature engineering можуть використовуватися комбіновані та 
агреговані ознаки, що відображають взаємодію між різними змінними. 
Наприклад, поєднання суми транзакції та типу пристрою може виявити 
нетипові операції, які характерні для шахраїв. Такі ознаки значно 
підвищують ефективність XGBoost, який здатний враховувати складні 
нелінійні взаємозв’язки. 
Додатково проводиться оцінка важливості ознак (feature importance) 
на навчальному наборі. Це дозволяє виділити найбільш інформативні змінні 
для моделі, зменшити розмірність і підвищити швидкодію системи. Random 
 Лист 
    мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   48 
 
Forest і XGBoost мають вбудовані механізми оцінки важливості ознак, що 
дозволяє автоматично відсіяти незначущі характеристики. 
Оцінка важливості ознак (Feature Importance) — це процес визначення 
того, наскільки кожна ознака впливає на прогноз моделі. 
Вона дозволяє: 
• підвищити інтерпретованість моделі (що критично для фінансової 
безпеки); 
• зменшити розмірність даних, відкидаючи неінформативні або шумові 
змінні; 
• виявити закономірності, які мають аналітичну цінність (наприклад, що 
тип пристрою чи країна клієнта суттєво впливають на ризик 
шахрайства). 
 
Існує кілька підходів до визначення важливості ознак (табл.2.1): 
Таблиця 2.1.Класифікація методів Feature Importance 
Тип Характеристики Приклади  
Decision Tree, 
Визначають важливість 
Random 
Model-based (вбудовані) безпосередньо з параметрів навченої 
Forest, 
моделі. 
XGBoost 
Оцінюють, наскільки погіршується 
Permutation-based Permutation 
якість моделі при випадковому 
(перестановкові) Importance 
перемішуванні певної ознаки. 
Model-agnostic Використовують інструменти 
SHAP, LIME 
(незалежні від моделі) інтерпретації для будь-якої моделі. 
 
 
 Лист 
Змін. Лист    мБі41.025.249.248 ПЗ 
№ докум. Підпис Дата   49 
 
Завершальний етап підготовки даних — формування навчального, 
валідаційного та тестового наборів. Однією з ключових вимог до побудови 
надійної системи машинного навчання є оцінка узагальнювальної здатності 
моделі — її здатності робити точні прогнози не лише на даних, які 
використовувалися для навчання, але й на нових, невідомих прикладах. Дані 
розбиваються так, щоб модель навчалася на історичних транзакціях, 
перевірялася на окремій частині для налаштування гіперпараметрів та 
тестувалася на нових, раніше не бачених транзакціях. Це забезпечує 
адекватну оцінку продуктивності моделі та її здатність узагальнювати знання 
на реальні дані. 
Для цього повний набір даних розділяють на три частини: 
• навчальну (training set) — використовується безпосередньо для 
навчання моделі; 
• валідаційну (validation set) — застосовується для налаштування 
гіперпараметрів та уникнення перенавчання; 
• тестову (test set) — використовується лише для фінальної оцінки 
моделі після завершення навчання. 
Типове співвідношення між наборами становить значення, 
представлене в табл.2.2. 
 
Таблиця 2.2. Орієнтовні набори даних  
Набір даних Призначення Частка (приблизно) 
Навчальний Навчання моделі 60–70% 
Налаштування параметрів, вибір 
Валідаційний 15–20% 
моделі 
Тестовий Остаточна перевірка якості 15–20% 
 
 Лист 
мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   50 
 
Найпростіший і найпоширеніший спосіб — розділення даних на 
тренувальний і тестовий набори за допомогою функції train_test_split з 
бібліотеки Scikit-learn: 
 
У результаті такого поділу отримаємо: 
• X_train, y_train — 70% даних для навчання; 
• X_val, y_val — 15% для валідації; 
• X_test, y_test — 15% для фінальної перевірки 
Крос-валідація (Cross-validation) - навчання і перевірка моделі 
здійснюються багаторазово на різних підмножинах даних, що дозволяє 
отримати стабільнішу оцінку якості. Дані діляться на k рівних частин (folds). 
На кожній ітерації одна частина використовується як валідаційна, а решта — 
як навчальні (рис.2.3.) 
 
Рис. 2.3. Ілюстрація створення наборів даних та рекалізація крос-валідації 
 Лист 
мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   51 
 
Приклад реалізації крос-валідації з розділенням даних на 5 фолдів з 
перемішуванням (shuffle=True) при застосуванні метрики «roc-auc» виглядає 
наступним чином: 
 
Валідаційний набір використовується для: 
• підбору гіперпараметрів (кількість дерев, глибина, learning rate тощо), 
• оцінки метрик (F1, ROC-AUC, Precision-Recall) під час експериментів, 
• раннього зупинення (early stopping) при тренуванні нейронних мереж 
чи бустинг-моделей. 
Під час поділу обов’язково слід зберігати співвідношення між класами 
(is_fraud = 0 / 1), інакше модель може бути неправильно навчена. 
Для цього в train_test_split використовується параметр stratify=y. 
Після вибору оптимальних параметрів і навчання фінальної моделі на 
об’єднаних train + validation даних, тестовий набір використовується лише 
один раз — для фінальної перевірки результатів. 
Ключове правило: тестові дані ніколи не використовуються для 
підбору параметрів чи вибору ознак. 
Таким чином, підготовка даних включає системний підхід: збір, 
очистку, нормалізацію, балансування класів, побудову та оцінку ознак. Цей 
етап є критично важливим для ефективного використання моделей 
машинного навчання, таких як Random Forest і XGBoost, та забезпечує 
високу точність і стійкість системи виявлення шахрайських транзакцій 
(рис.2.3). 
 Лист 
   мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   52 
 
 
Рис.2.4. Підготовка даних для побудови моделі ML 
 
2.4. Вибір метрик оцінки ефективності моделі 
Оцінювання якості моделей машинного навчання є ключовим етапом у 
процесі побудови системи виявлення шахрайських транзакцій. Без коректних 
метрик неможливо об’єктивно визначити, наскільки модель здатна 
правильно класифікувати транзакції, узагальнювати закономірності та 
ефективно працювати на нових даних. Використання метрик дозволяє 
кількісно оцінити успішність навчання, виявити недоліки алгоритму та 
порівнювати різні підходи або архітектури моделей між собою. Застосування 
відповідних показників також є основою для подальшої оптимізації 
параметрів моделі. 
У задачах виявлення шахрайських транзакцій вибір метрик особливо 
важливий через незбалансованість класів — кількість шахрайських операцій 
зазвичай у десятки чи сотні разів менша, ніж легітимних. У таких умовах 
використання лише показника точності (accuracy) може бути оманливим: 
модель, яка завжди передбачає “немає шахрайства”, може мати високу 
точність, але не виявлятиме жодного реального випадку. Тому для адекватної 
оцінки ефективності необхідно використовувати метрики, що враховують як 
хибнопозитивні, так і хибнонегативні передбачення. 
Вибір метрики безпосередньо впливає на якість розробленої моделі, 
оскільки саме метрика визначає напрям оптимізації під час навчання. Якщо 
 Лист 
   мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   53 
 
основна мета системи — мінімізувати кількість пропущених шахрайських 
транзакцій, пріоритетним буде показник Recall (чутливість). Якщо ж 
важливо уникнути помилкових звинувачень клієнтів, доцільно підвищувати 
Precision (точність позитивних прогнозів). Таким чином, метрика визначає 
компроміс між різними типами помилок і формує поведінку моделі в 
реальних умовах. 
Крім того, застосування комплексних метрик, таких як F1-score або 
ROC-AUC, дозволяє отримати більш збалансоване уявлення про роботу 
моделі. F1-score враховує як точність, так і повноту, що є критичним у 
задачах із дисбалансом даних. ROC-AUC (Area Under the Receiver Operating 
Characteristic Curve) показує здатність моделі розділяти класи незалежно від 
обраного порогу прийняття рішення. Вибір саме цих метрик забезпечує 
об’єктивну та стійку оцінку продуктивності системи при виявленні 
шахрайських дій. 
Основні метрики та їх аналітичні визначення. 
У задачах класифікації результати роботи моделі оцінюються за 
допомогою матриці помилок (confusion matrix), яка відображає 
співвідношення між реальними та передбаченими класами. Для двокласової 
задачі (наприклад, «шахрайська» / «нормальна» транзакція) матриця включає 
чотири можливі типи результатів табл.2.3. 
 
Таблиця 2.3. Представлення матриці помилок 
 Реально шахрайська (1) Реально нормальна (0) 
Передбачено TP — істинно позитивний FP — хибнопозитивний 
шахрайство (1) результат результат 
Передбачено нормальна FN — хибнонегативний TN — істинно негативний 
(0) результат результат 
 
 Лист 
 мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   54 
 
FP (False Positive, хибнопозитивний результат) — ситуація, коли 
модель помилково позначає нормальну транзакцію як шахрайську. 
У контексті фінансових операцій це означає, що легітимна транзакція була 
заблокована або потребує додаткової перевірки. Такий тип помилки 
призводить до незручностей для клієнтів і може знижувати довіру до 
системи. 
FN (False Negative, хибнонегативний результат) — випадок, коли 
модель не виявила реальну шахрайську транзакцію, класифікувавши її як 
нормальну. Це найнебезпечніший тип помилки, оскільки призводить до 
прямих фінансових втрат та компрометації безпеки системи. 
Точність (Accuracy). Точність — це відношення кількості правильних 
передбачень до загальної кількості прикладів у тестовій вибірці. 
Аналітичне визначення має наступний вид: 
 
де TP — істинно позитивні результати (правильно виявлені шахрайські 
транзакції), TN — істинно негативні (правильно розпізнані нормальні 
операції), FP — хибнопозитивні, FN — хибнонегативні. 
Метрика ефективна лише при збалансованих класах, але в задачах 
шахрайства використовується як допоміжний показник загальної точності 
системи. 
Повнота (Recall) та точність позитивних прогнозів (Precision). 
Recall показує, яку частину реальних шахрайських випадків модель 
змогла виявити: 
 
Precision, у свою чергу, характеризує, яка частка передбачених як 
шахрайських транзакцій дійсно є такими: 
 Лист 
   мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   55 
 
 
У практиці кібербезпеки між цими метриками існує компроміс: 
підвищення Recall часто знижує Precision і навпаки. Тому вибір між ними 
залежить від бізнес-пріоритетів — чи важливіше мінімізувати втрати від 
невиявлених шахрайств, чи уникати помилкових сповіщень. 
F1-score. F1-метрика є гармонійним середнім між Precision та Recall: 
 
Вона забезпечує баланс між виявленням шахрайських випадків і 
точністю прогнозів. F1-score особливо корисна в умовах значного дисбалансу 
класів, коли підвищення лише однієї з метрик не відображає реальної 
ефективності системи. Максимальне значення F1 = 1 відповідає ідеальній 
моделі, тоді як значення, близькі до 0, свідчать про слабку здатність до 
класифікації. 
 
2.5. Висновки 
У ході дослідження було сформульовано постановку задачі виявлення 
шахрайських транзакцій та здійснено її формалізацію у термінах машинного 
навчання. Проблему визначено як задачу бінарної класифікації, де кожна 
транзакція позначається міткою «шахрайська» або «нормальна». Проведено 
аналіз особливостей предметної області, визначено вхідні параметри, 
очікувані результати, а також критерії якості моделі. З урахуванням 
специфіки фінансових операцій було обґрунтовано необхідність 
використання методів, здатних працювати з великими, незбалансованими та 
неоднорідними наборами даних. 
Розроблено та описано архітектуру системи виявлення шахрайства, що 
включає послідовні модулі збору, попередньої обробки, побудови ознак, 
навчання моделі та оцінювання результатів. Вибір архітектури обґрунтовано 
 Лист 
  мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   56 
 
вимогами до точності, масштабованості та швидкодії системи в умовах 
потокової обробки транзакцій. Особливу увагу приділено етапам інтеграції 
компонентів машинного навчання у загальну інфраструктуру, що забезпечує 
можливість подальшої автоматизації та адаптації моделі до нових даних. 
Розглянуто процес підготовки даних для машинного навчання, який 
охоплює очищення, кодування категоріальних ознак, обробку 
незбалансованих класів, побудову та оцінку важливості ознак, а також 
формування навчального, валідаційного та тестового наборів даних. 
Реалізація цих кроків дала змогу забезпечити якість і репрезентативність 
вибірки, підвищити ефективність навчання моделей і зменшити ризик 
переобучення. Таким чином, результати розділу створюють надійне 
підґрунтя для подальшої реалізації, навчання та тестування моделей 
машинного навчання у наступному розділі роботи. 
Крім того, у межах розділу було визначено та обґрунтовано вибір 
метрик оцінки ефективності моделей, зокрема показників точності 
(Accuracy), повноти (Recall), точності позитивних прогнозів (Precision), F1-
score та ROC-AUC. Застосування цих метрик дозволяє здійснити комплексну 
оцінку продуктивності алгоритмів, виявити баланс між хибнопозитивними та 
хибнонегативними результатами та обрати модель, яка найкраще відповідає 
практичним вимогам системи виявлення шахрайських транзакцій. 
Використання адекватних метрик забезпечує об’єктивність порівняння 
різних підходів і підвищує достовірність отриманих результатів. 
 Лист 
  мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   57 
 
3. РЕАЛІЗАЦІЯ ЕКСПЕРЕМЕНТІВ ТА АНАЛІЗ МОДЕЛЕЙ ML 
ДЛЯ ВИЯВЛЕННЯ ШАХРАЙСЬКИХ ТРАНЗАКЦІЙ 
 
3.1. Джерела даних для побудови моделі виявлення шахрайських 
транзакцій 
Вибір джерела даних є критичною умовою для розробки ефективної 
системи виявлення шахрайських транзакцій. Якість і структура набору даних 
визначають можливості моделі машинного навчання у виявленні аномалій та 
шахрайських випадків. Для дослідження застосовуються як публічні набори 
даних, так і синтетичні або корпоративні дані, що забезпечують різні сценарії 
навчання та тестування. 
Одним із найпопулярніших джерел є платформа Kaggle, що надає 
декілька відомих наборів даних для задач фінансового шахрайства. Найбільш 
відомий — Credit Card Fraud Detection, який містить понад 280 тисяч 
транзакцій із 492 випадками шахрайства. Також на Kaggle доступні великі та 
складні набори, такі як IEEE-CIS Fraud Detection, що містить більше 1 
мільйона транзакцій і додаткові характеристики клієнтів, пристроїв та 
платіжних методів. 
Ще одним ресурсом є PaySim — синтетичний набір, згенерований на 
основі статистики реальних мобільних транзакцій. Використання 
синтетичних даних дозволяє моделювати різні сценарії шахрайства та 
тестувати алгоритми у контрольованому середовищі. PaySim особливо 
корисний для вивчення поведінкових закономірностей у мобільних платежах 
та проведення експериментів з балансуванням класів. 
Альтернативою для є UCI Machine Learning Repository, де 
представлений набір Credit Card Clients Default Dataset. Він містить 
інформацію про клієнтів тайванського банку, включаючи демографічні 
характеристики, історію платежів та баланс. Хоча він орієнтований на 
 Лист 
  мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   58 
 
кредитний ризик, його можна адаптувати для задач виявлення шахрайства, 
використовуючи поведінкові та фінансові ознаки. 
Для створення більш реалістичних та різноманітних наборів даних 
застосовують синтетичні генератори, такі як SDV (Synthetic Data Vault) та 
бібліотека FraudSim. Вони дозволяють генерувати табличні дані з 
контрольованим дисбалансом класів і заданими сценаріями шахрайства, 
зберігаючи статистичні залежності між ознаками. Це особливо актуально, 
якщо відсутній доступ до реальних фінансових даних. 
Сучасні фінансові платформи та API, такі як Plaid, Stripe, PayPal 
Sandbox та стандарти Open Banking (UK, EU), дозволяють отримувати 
структури транзакцій та тестові дані, які імітують поведінку користувачів. 
Використання таких джерел допомагає моделювати актуальні сценарії 
шахрайства без розкриття персональних даних, що відповідає вимогам 
конфіденційності. 
Наприклад, Plaid — це фінтех-платформа (FinTech API-провайдер), яка 
забезпечує з’єднання між банківськими рахунками користувачів і сторонніми 
застосунками (наприклад, фінансовими сервісами, аналітикою витрат, 
сервісами кредитування або системами виявлення шахрайства). 
Plaid надає API, через який застосунок (наприклад, мобільний додаток 
для управління фінансами або платформа платежів) може: 
• підключити банківський рахунок користувача; 
• отримати дані про баланс, історію транзакцій, кредитні/дебетові 
картки; 
• ініціювати платежі через bank-to-bank інтеграцію. 
Все це — з дозволу користувача (через OAuth-авторизацію або 
інтерфейс банку). 
 Лист 
  мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   59 
 
Plaid не лише передає фінансові дані, а й має власний Plaid Signal API, 
який використовує машинне навчання для оцінювання ймовірності того, що 
транзакція є шахрайською. 
Приклад використання: 
1. Фінансовий застосунок надсилає через API запит із даними про 
транзакцію (час, сума, merchant, користувач); 
2. Plaid аналізує цю транзакцію за допомогою власних моделей ML, 
побудованих на великій базі транзакційних патернів; 
3. Повертається оцінка ризику (risk_score) або рекомендація — «approve / 
review / decline». 
Таким чином, Plaid може бути компонентом системи antifraud-аналізу. 
Доступ до власних корпоративних даних банків або фінансових 
установ є найціннішим джерелом для побудови production-ready моделей. 
Проте використання таких даних потребує обов’язкової анонімізації та 
дотримання стандартів безпеки (GDPR, ISO/IEC 27001). Реальні дані 
дозволяють оцінити ефективність алгоритмів у природних умовах та 
підвищити їх практичну цінність. 
При аналізі джерел даних слід враховувати характеристики набору: 
обсяг, рівень дисбалансу, наявність анонімізації, типи ознак (числові, 
категоріальні), а також можливість масштабування. Для магістерської роботи 
було обрано Credit Card Fraud Detection (Kaggle) як базову 
експериментальну вибірку через її відкритість, репрезентативність та 
поширене використання у науковій літературі. 
Таким чином, аналіз джерел даних показав, що для задач виявлення 
шахрайських транзакцій можна поєднувати публічні набори, синтетичні 
дані та корпоративні записи, адаптуючи їх під конкретні експериментальні 
цілі. Обраний набір із Kaggle забезпечує баланс між доступністю, розміром 
 Лист 
  мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   60 
 
та структурою даних, створюючи надійну основу для проведення 
експериментів і подальшого навчання моделей машинного навчання. 
 
3.2. Попередній аналіз та обробка даних 
Датасет Credit Card Fraud Detection (Kaggle) містить реальні 
транзакційні дані європейських власників кредитних карток, зібрані 
протягом дводенного періоду. Мета — розробити й оцінити алгоритми 
машинного навчання для виявлення шахрайських транзакцій (fraudulent 
transactions). 
Кількість записів в датасеті – 284.807 транзакцій, 31 стовпець, формат 
даних – CSV, мова даних- Англійська (рис.3.1). 
 
Рис.3.1. Зчитування датасета та аналіз його структури 
 
Дані були анонімізовані з міркувань конфіденційності, тому 
ідентифікаційна та персональна інформація клієнтів прихована. Натомість 
більшість ознак отримані шляхом методу головних компонент (PCA) — для 
зменшення вимірності й приховування вихідних змінних (рис.3.2). Опис 
датасета: 
Time - час, який минув (у секундах) з моменту першої транзакції у 
вибірці; 
V1–V28 - 28 анонімізованих ознак, отриманих через метод головних 
компонент (PCA). Вони описують поведінкові та статистичні характеристики 
транзакцій; 
 Лист 
    мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   61 
 
Amount - сума транзакції в євро; 
Class - цільова змінна: 0 — звичайна транзакція, 1 — шахрайська 
транзакція. 
 …   
Рис.3.2. Фрагмент датасету для попереднього аналізу і побудови моделі 
машинного навчання. 
 
Дивлячись на функцію «Час», можна підтвердити, що дані містять 284 
807 транзакцій протягом 2 послідовних днів (або 172 792 секунди) (рис.3.3). 
 
Рис.3.3. Фрагмент опису датасету та визначення інтервалу запису даних 
Аналіз датасета. Надзвичайно незбалансований клас: лише 492 
транзакції з 284,807 є шахрайськими (рис.3.4.). 
 
 Лист 
мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   62 
 
 
Рис.3.4. Ілюстрація дисбалансу класів в датасеті. 
 
Частка позитивного класу ≈ 0.172%, тобто приблизно 1 шахрайська 
транзакція на 580 нормальних. Це створює класичну проблему class 
imbalance, яка вимагає спеціальних методів балансування (undersampling, 
oversampling, SMOTE, anomaly detection). 
Анонімізовані ознаки (V1–V28). Вони не мають інтерпретаційного 
змісту, але зберігають структуру статистичних залежностей. Це ускладнює 
пояснення результатів моделі, але полегшує порівняння алгоритмів. 
Різна шкала ознак. Time та Amount не були нормалізовані. V1–V28 
вже мають нормалізоване значення після PCA. Це потребує нормалізації або 
стандартизації числових змінних (Time, Amount). 
Проблема інтерпретації. Через PCA не можна напряму сказати, які 
фактори вплинули на шахрайство, тому основний акцент робиться на 
ефективності класифікації, а не на поясненні ознак. 
Основна ціль — побудувати модель, здатну: 
• ідентифікувати аномальні транзакції (class = 1); 
• мінімізувати помилки 1-го роду (False Positive) та 2-го роду (False 
Negative); 
 Лист 
     мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   63 
 
• забезпечити високі показники Precision, Recall, F1-score навіть при 
сильному дисбалансі. 
 Моделі, що найчастіше тестуються на цьому наборі: Random Forest, 
XGBoost, LightGB. 
 
 Проаналізуємо часові характеристики транзакцій за параметром 
«Time» та співставлення з «Class». Шахрайські транзакції мають розподіл 
більш рівномірний, ніж дійсні транзакції – вони рівномірно розподілені в 
часі, включаючи низький реальний час транзакцій, вночі в європейському 
часовому поясі (рис.3.5). 
 
Рис.3.5. Часові характеристики дійсних (синя крива) та шахрайських 
(червона крива) транзакцій. 
 
 Розглянемо детальніше розподіл часу для обох класів транзакцій, а 
також агреговані значення кількості та суми транзакцій за годину. Ми 
припускаємо (на основі спостережень за розподілом часу транзакцій), що 
одиницею часу є секунда. 
 Створимо нову ознаку Hour, яка представляє номер години (0–48), 
оскільки у датасеті Time — це час у секундах від початку збору даних 
 Лист 
     мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   64 
 
(приблизно дві доби). Таким чином, кожна транзакція отримує часову мітку, 
за якою можна дослідити добові закономірності (рис.3.6).  
 
Рис.3.6. Представлення залежності суми транзакцій від часу (год) для 
нормальних та шахрайських транзакцій. 
 
Лівий графік показує зміну загальної суми звичайних транзакцій 
(Class=0) протягом доби, а правий графік (червоний) — загальну суму 
шахрайських транзакцій (Class=1) у ті ж часові проміжки.  
Графік для Class=0 (звичайні транзакції) - має виражені добові цикли 
активності:  піки вдень (з 9:00 до 18:00), спади вночі (0:00–6:00). Це 
відображає нормальну поведінку користувачів, коли більшість операцій 
відбувається у робочий день. Суми транзакцій також збільшуються вдень, 
коли активна торгівля, покупки, оплати послуг. 
 Графік для Class=1 (шахрайські транзакції) - не має чіткої 
періодичності. Часто видно аномальні піки у нічні години (наприклад, 1–3 
година ночі або 27–29 година другого дня). Загальна сума менша (бо fraud-
транзакцій набагато менше), але їх розподіл порушує природний добовий 
ритм. Це типовий патерн: шахраї часто проводять операції в позаробочий 
час, щоб уникнути миттєвого виявлення. 
Аналіз динаміки Total Amount по годинах показав, що: 
 Лист 
   мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   65 
 
• звичайні транзакції мають чіткий добовий ритм з піковою активністю 
вдень, 
• тоді як шахрайські транзакції — хаотично розподілені, з окремими 
аномальними сплесками у нічний час; 
• це вказує на поведінкову відмінність користувачів і шахраїв, яку можна 
ефективно використовувати для побудови ознак машинного навчання 
(наприклад, “is_night_transaction”). 
 
Проаналізуємо середню суму транзакцій (Mean Amount) у різні години 
доби для звичайних (Class=0) і шахрайських (Class=1) операцій. .Тобто тепер 
не просто оцінюємо загальну активність, а аналізуємо середній розмір 
операції протягом доби, що є більш глибоким поведінковим індикатором 
(рис.3.7). 
 
Рис.3.7. Представлення залежності середньої суми транзакцій від часу (год) 
для нормальних та шахрайських операцій. 
 
Аналітичні спостереження аналізу середньої суми транзакцій: 
 Лист 
     мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   66 
 
 
Отримані результати показують, що звичайні користувачі мають 
передбачуваний добовий ритм транзакцій, а їх середня сума корелює з 
активністю дня. 
Шахрайські транзакції, навпаки, позбавлені регулярності — вони 
з’являються у випадкові години, часто вночі або у нетиповий час, коли 
людська активність мінімальна. 
Це підтверджує, що час доби може бути інформативним предиктором 
шахрайства — особливо у вигляді похідної ознаки, наприклад: 
Проаналізуємо максимальні суми транзакцій (Max Amount) за кожну 
годину доби окремо для нормальних (Class=0) та шахрайських (Class=1) 
операцій. Цей підхід дозволяє побачити екстремальні значення — тобто 
пікові суми, які можуть бути важливими для виявлення аномальної 
активності або спроб масштабного шахрайства (рис.3.8). 
 
Рис.3.8. Представлення залежності максимальних сум транзакцій за кожну 
годину доби для нормальних та шахрайських операцій. 
 Лист 
     мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   67 
 
Аналітичне порівняння максимальних сум транзакцій за кожну годину доби: 
 
 
Аналіз динаміки максимальних сум транзакцій (Max Amount) за 
годинами показав суттєві відмінності у поведінці користувачів і шахраїв. 
Для звичайних операцій характерна структурована добова активність, 
де максимальні суми припадають на робочий день і мають стабільний рівень. 
Для шахрайських транзакцій притаманні нерегулярні сплески великих 
сум у нічний час, що вказує на навмисні спроби виведення коштів у періоди 
мінімального моніторингу. Такі піки можна трактувати як аномальні точки, 
що мають високий ризиковий індекс і повинні бути враховані під час 
побудови моделей машинного навчання (особливо у рамках feature 
engineering). 
Таким чином, графіки “Maximum Amount for Normal and Fraud 
Transactions” чітко демонструють поведінкову асиметрію між звичайними 
користувачами та шахраями. 
Якщо для перших характерна стабільна і логічна структура 
максимальних сум у робочі години, то для других — хаотичні та раптові піки 
у нетиповий час. 
Проведемо візуальну оцінку розподілу сум транзакцій (Amount) для 
обох класів — звичайних (Class=0) та шахрайських (Class=1) — і водночас 
виявимо аномальні значення (outliers). Для цього скористаємося boxplot-
графіками (ящики з вусами), що ілюструють поведінку даних з урахуванням 
та без урахування викидів. 
 Лист 
   мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   68 
 
 
Рис.3.9. Аналіз розподілу сум транзакцій (Amount) для звичайних (Class=0) 
та шахрайських (Class=1) класів. 
 
Лівий графік (showfliers=True) — показує розподіл сум транзакцій із 
відображенням аномальних значень (outliers). 
Правий графік (showfliers=False) — показує той самий розподіл, але без 
викидів, що дозволяє краще бачити основну масу спостережень. 
Кожен boxplot містить: 
• медіану (середину коробки) — типове значення суми; 
• квартилі (Q1–Q3) — 50% центральних даних; 
• "вуса" (whiskers) — діапазон значень без викидів; 
• точки поза вусами — аномальні транзакції. 
Спостереження з графіка з викидами (showfliers=True). 
Графік ліворуч — з урахуванням викидів (showfliers=True): 
• Class 0 (фіолетовий) - більшість звичайних транзакцій мають невеликі 
суми, але видно значну кількість викидів (outliers), які піднімаються до 
25 000 €. Це великі покупки, корпоративні перекази чи платежі з 
високою вартістю, які є нормальними, але статистично рідкісними. 
• Class 1 (зелений) -шахрайські транзакції також мають окремі викиди, 
але значно менші за амплітудою — до 2000 €. Водночас основна маса даних 
 Лист 
     мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   69 
 
знаходиться дуже близько до нуля. Це свідчить, що більшість fraud-операцій 
мають малі суми (до 100 €). 
Таким чином, наявність численних великих викидів у класі 0 — це 
природна особливість реальних даних, де легальні операції можуть сильно 
відрізнятися за розміром. А ось для шахрайських операцій характерна низька 
амплітуда і менша варіативність, оскільки зловмисники зазвичай проводять 
дрібні суми, щоб уникнути підозри. 
Графік праворуч — без урахування викидів (showfliers=False). 
Після видалення аномальних значень розподіл стає більш читабельним: 
• Class 0 (фіолетовий): медіана — близько 20–30 €, більшість транзакцій 
у межах 0–100 €, з окремими випадками до ~180 €. Це типовий профіль 
побутових платежів. 
• Class 1 (зелений): медіана трохи нижча, але діапазон ширший (до 250 
€). Хоча шахрайські транзакції в середньому невеликі, іноді 
спостерігаються більші суми, які створюють враження більшого 
розкиду після очищення від викидів. 
Таким чином, без викидів стає очевидно, що розподіли двох класів 
частково перекриваються, але шахрайські транзакції мають: 
• нижчу центральну тенденцію (меншу медіану), 
• меншу щільність навколо середнього, 
• і ширший розкид для нечисленних, але більших операцій. 
Аналітичні спостереження обох графіків виклаемо в наступному виді. 
 
 Лист 
   мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   70 
 
Отримані boxplot-графіки показують, що розподіл сум транзакцій 
кардинально різниться між звичайними та шахрайськими операціями. У 
легальних транзакціях спостерігається широкий спектр сум — від дрібних 
покупок до великих корпоративних платежів. Це формує велику кількість 
статистичних викидів. 
У шахрайських транзакціях, навпаки, більшість операцій мають 
невелику суму, що пов’язано з поведінковими стратегіями зловмисників — 
тестуванням карток або непомітним виведенням невеликих коштів. Водночас 
наявність кількох великих fraud-операцій свідчить про спроби масових атак 
або зняття коштів після компрометації платіжних даних. 
Проведений статистичний та візуальний аналіз транзакцій показав 
наявність суттєвих поведінкових відмінностей між звичайними та 
шахрайськими операціями. Зокрема, звичайні транзакції характеризуються 
стабільною добовою активністю, значною варіативністю сум і наявністю 
великої кількості викидів, що відповідає природному спектру фінансової 
поведінки користувачів. Натомість шахрайські транзакції мають менші 
середні значення суми, компактний розподіл та аномальні часові піки у нічні 
години, що свідчить про їх навмисно прихований або автоматизований 
характер. 
Отримані результати підтверджують доцільність використання 
виявлених часових і сумових закономірностей як основи для побудови ознак 
машинного навчання. Таким чином, на наступному етапі дослідження 
доцільно перейти до побудови моделей машинного навчання (наприклад, 
Random Forest, XGBoost) з метою автоматичного розпізнавання транзакцій, 
що мають ознаки шахрайства, на основі сформованих поведінкових 
характеристик. 
 
 
 Лист 
  мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   71 
 
3.3. Побудова моделі Random Forest та її аналіз для виявлення 
шахрайських транзакцій 
Застосування моделі Random Forest є доцільним для задачі виявлення 
шахрайських транзакцій, оскільки цей алгоритм добре працює з нелінійними, 
високорозмірними та незбалансованими наборами даних, такими як Credit 
Card Fraud Detection. Завдяки ансамблевій природі — поєднанню великої 
кількості незалежних дерев рішень — Random Forest здатний узагальнювати 
закономірності у даних і мінімізувати ризик перенавчання (overfitting), який 
часто спостерігається у класичних дерев. Крім того, модель стійка до шумів, 
а процес випадкового вибору підмножин ознак на кожному кроці забезпечує 
різноманітність дерев і підвищує точність класифікації навіть у складних 
поведінкових патернах. 
Ще однією важливою перевагою Random Forest є його 
інтерпретованість — модель надає можливість оцінити важливість кожної 
ознаки (feature importance), що дозволяє аналітично визначити, які параметри 
найбільше впливають на виявлення шахрайства (наприклад, час операції, 
сума транзакції або відхилення від типового профілю користувача). Крім 
того, алгоритм легко налаштовується, добре масштабується та не вимагає 
попереднього припущення про розподіл даних, що робить його ефективним 
інструментом для побудови автоматизованої системи виявлення фінансових 
аномалій у реальному часі. 
Визначимо цільову мітку (target) та ознаки (predictors), які будемо 
досліджувати: 
 
Розділемо початковий набір даних на тренувальний, тестовий та 
валідаційний: 
 Лист 
  мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   72 
 
 
Запустимо модель, використовуючи навчальний набір для навчання, а 
потім ми використовуватимемо набір для валідації. 
Використаємо як критерій валідації GINI, формула якого має вигляд  
GINI = 2 * (AUC) - 1, 
де AUC - це площа під кривою робочих характеристик приймача (ROC-
AUC).  
 Проведемо ініціалізацію класифікатора RandomForestClassifier: 
 
де RFC_METRIC = 'gini';  
NUM_ESTIMATORS = 100 - кількість оцінок, що використовуються для 
класифікатора випадкового лісу;  
NO_JOBS = 4 - кількість паралельних завдань, що використовуються для 
класифікатора випадкового лісу 
 Наступна команда: 
clf.fit(train_df[predictor], train_df[target].values) 
виконує етап навчання моделі машинного навчання (у цьому випадку, 
Random Forest). Вона передає моделі дві частини даних: матрицю ознак 
train_df[predictors], що містить незалежні змінні (час, сума, похідні 
поведінкові параметри тощо), та вектор цільових значень 
train_df[target].values, який вказує, чи є транзакція шахрайською (1) або 
нормальною (0). Під час виконання цієї команди модель аналізує 
взаємозв’язки між ознаками та цільовим класом, формуючи набір правил для 
подальшого прогнозування шахрайських операцій на нових, невідомих 
даних. 
 Лист 
   мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   73 
 
 Наступна команда: 
preds = clf.predict(valid_df[predictor]) 
виконує етап прогнозування — модель, попередньо навчена на тренувальних 
даних, застосовується до нової вибірки valid_df[predictors], яка містить лише 
незалежні ознаки без відомих міток класів. У результаті модель генерує 
прогнозовані значення (preds) для кожного запису, визначаючи, чи є 
транзакція потенційно шахрайською (1), чи нормальною (0). Цей етап 
дозволяє оцінити здатність моделі узагальнювати отримані знання та 
виявляти шахрайські операції на невідомих даних. 
Формування та використання найважливіших ознак (most important 
features) є ключовим етапом підвищення ефективності моделі машинного 
навчання. Після навчання алгоритм, зокрема Random Forest, обчислює вагу 
кожної ознаки — тобто міру її внеску у прийняття рішення про класифікацію 
транзакцій. Ці показники дозволяють визначити, які характеристики 
(наприклад, сума операції, час доби, відхилення від середнього профілю 
користувача тощо) найбільше впливають на виявлення шахрайства. 
Використання лише найінформативніших ознак зменшує складність моделі, 
покращує швидкодію, знижує ризик перенавчання та підвищує 
інтерпретованість результатів, що є важливим для практичних систем 
кібербезпеки й фінансового моніторингу (рис.3.10) 
Матриця переплутування (confusion matrix) є базовим інструментом для 
оцінювання якості класифікаційної моделі. Вона відображає, скільки об’єктів 
кожного класу було правильно або неправильно класифіковано, тобто 
дозволяє наочно оцінити співвідношення між справжніми та передбаченими 
значеннями. У випадку задачі виявлення шахрайських транзакцій матриця 
показує, скільки реальних шахрайських операцій модель виявила коректно 
(True Positives), скільки пропустила (False Negatives), а також скільки 
звичайних транзакцій помилково віднесла до шахрайських (False Positives) 
 Лист 
Змін.     мБі41.025.249.248 ПЗ 
Лист № докум. Підпис Дата   74 
 
(рис.3.11). Вона дає змогу оцінити не лише загальну точність моделі, а й її 
здатність мінімізувати критичні помилки, зокрема пропущене шахрайство. 
 
Рис.3.10. Ранжування ознак за рівнем важливості 
З рис.3.10 можна виділити найважливіші характеристики для даного 
датасету і використаної моделі Random Forest, яким є V17, V12, V14, V10, 
V11, V16. 
 
 
Рис.3.11. Представлення confusion matrix для досліджуваної моделі Random 
Forest. 
 Лист 
  мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   75 
 
Аналізуючи матрицю переплутування, можна визначити сильні та 
слабкі сторони моделі, а також скоригувати її параметри або ваги класів для 
покращення балансу між Precision (точністю) і Recall (повнотою). У 
контексті кібербезпеки надзвичайно важливо мінімізувати False Negatives, 
адже кожна невиявлена шахрайська транзакція може призвести до 
фінансових втрат. Тому аналіз матриці дозволяє не лише оцінити 
ефективність алгоритму, а й приймати обґрунтовані рішення щодо його 
подальшої оптимізації, наприклад — підбору порогу класифікації, 
балансування класів або комбінування моделей.  
Для даної моделі False Negatives складає 30 транзакцій (невиявлені 
шахрайські транзакції) та False Positives – 7 (помилково віднесених до 
шахрайських). 
Для аналізу представленої моделі наведені основні метрики, які 
характеризують якість моделі. 
 
Як видно з результатів, оскільки датасет є розбалансований, то 
характеристика Accuracy є досить високою, що не буде відображати реальну 
якість моделі, тому потрібно орієнтуватися на характеристику f1 або 
ROC_AUC, які будуть інтегрально враховувати властивості датасета. 
Метрика ROC-AUC (Receiver Operating Characteristic — Area Under the 
Curve) є однією з ключових при оцінюванні ефективності моделей 
класифікації, особливо у випадках з дисбалансом класів. Крива ROC (крива 
робочих характеристик приймача) відображає залежність між True Positive 
Rate (чутливістю) та False Positive Rate (1 - специфічністю) при зміні 
 Лист 
  мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   76 
 
порогового значення класифікації. Площа під цією кривою (AUC) 
характеризує загальну здатність моделі розрізняти класи. Значення AUC = 
1.0 відповідає ідеальній моделі, тоді як AUC = 0.5 означає відсутність 
дискримінаційної здатності (випадкове вгадування). Чим більшим є значення 
ROC-AUC, тим точніше модель відрізняє шахрайські транзакції від 
звичайних. Таким чином, ROC-AUC є універсальною метрикою, яка дозволяє 
оцінити якість моделі незалежно від вибору порогу та ступеня дисбалансу 
даних (рис.3.12). 
 
Рис.3.12. Ілюстрація кривої ROC для для моделі Random Forest. 
 
3.4. Побудова моделі XGBoost та її аналіз для виявлення 
шахрайських транзакцій 
XGBoost (Extreme Gradient Boosting) базується на принципі 
градієнтного бустингу, що дозволяє будувати модель поступово, 
покращуючи її шляхом послідовного додавання нових дерев для корекції 
помилок попередніх. На відміну від Random Forest, де дерева будуються 
незалежно й результати агрегуються середнім або більшістю голосів, 
 Лист 
     мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   77 
 
XGBoost орієнтований на мінімізацію функції втрат на кожному етапі, що 
дозволяє моделі більш точно захоплювати складні залежності між ознаками 
та цільовою змінною. Це особливо важливо при роботі з високорозмірними 
та складними наборами даних. 
Однією з ключових переваг XGBoost є вбудована регуляризація, яка 
контролює складність дерев і зменшує ризик перенавчання. Random Forest 
використовує багато дерев і випадковість у виборі ознак для зменшення 
overfitting, але XGBoost додатково враховує параметри регуляризації L1 та 
L2, що підвищує стабільність моделі та дозволяє досягти кращої узагальненої 
точності на валідаційних даних. Такий підхід особливо ефективний при 
роботі з неврівноваженими класами або даними з шумом. 
XGBoost також характеризується високою швидкістю обчислень та 
ефективним використанням пам’яті завдяки оптимізованим алгоритмам 
сортування та обробки пропущених значень. Random Forest у порівнянні з 
цим є менш гнучким, оскільки не враховує градієнтну інформацію для 
побудови дерев і потребує більшого обсягу ресурсів при великих наборах 
даних.  
Проведемо ініціалізацію класифікатора з визначенням основних 
параметрів: 
 
Оскільки валідаційна вибірка вже була підготовлена, скористаємося 
наявною інформацією для прогнозування і обчислення основних метрик: 
 Лист 
   мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   78 
 
 
 
 
 
Як видно з отриманих результатів, метрики Accuracy та f1 фактично не 
змінилися, але суттєво покращився показник ROC-AUC з 0.85 до 0.97, що 
свідчить про покращення якості запропонованої моделі. Окрім того, для 
даної моделі XGBoost зменшилися показники хибних прогнозів, зокрема 
False Negatives зменшилося до 28 транзакцій (невиявлені шахрайські 
транзакції), але разом з тим підвищилася кількість False Positives – до 10 
(помилково віднесених до шахрайських). Представлення метрики ROC-AUC 
показано на рис.3.13. 
 Лист 
мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   79 
 
 
Рис.3.13. Ілюстрація кривої ROC для для моделі XGBoost. 
 
Окрім того, було застосовано техніку GridSearchCV для пошуку 
найкращих гіперпараметрів для підвищення точності модел: 
 Лист 
мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   80 
 
 
Результати пошуку дали наступні результати: 
 
Як видно, знайдені параметри для даної моделі не дали суттєвих 
покращень щодо підвищення її якості моделі, які вже і так були досить 
високими. Такі показники, як f1 та ROC-AUC залишилися фактично на тому 
ж рівні. 
 
3.5. Висновки 
У результаті дослідження для класифікації досліджуваного датасету 
були застосовані моделі Random Forest та XGBoost. Обидві моделі показали 
високі результати точності та здатність відокремлювати позитивні та 
 Лист 
 мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   81 
 
негативні класи, проте підхід XGBoost продемонстрував кращу здатність 
моделі враховувати складні взаємозв’язки між ознаками завдяки 
градієнтному бустингу та послідовному коригуванню помилок. Random 
Forest, у свою чергу, забезпечує більш стабільну роботу на менш складних 
даних і простіший підхід до побудови ансамблю дерев. 
Порівняння метрик показало, що XGBoost забезпечує вищі значення F1 
та ROC-AUC на валідаційній вибірці, що свідчить про його кращу 
узагальнювальну здатність та ефективність у розпізнаванні позитивних 
прикладів при наявності дисбалансу класів. Random Forest також показав 
стабільні результати, проте його продуктивність трохи поступається XGBoost 
у завданнях, де важливо враховувати взаємодію великої кількості ознак та 
комплексну структуру даних. 
Графічний аналіз матриці сплутаності дозволив наочно оцінити 
помилки моделей. XGBoost продемонстрував меншу кількість 
хибнонегативних прогнозів, що підтверджує перевагу градієнтного підходу 
та регуляризації у запобіганні переобученню. Random Forest, хоча і показав 
загалом прийнятний розподіл помилок, має більшу варіативність у прогнозах 
на рідкісні класи, що може бути критичним у задачах з дисбалансом. 
Отже, аналіз показав, що для досліджуваного датасету XGBoost є більш 
перспективною моделлю завдяки здатності точно відокремлювати класи, 
ефективно працювати з дисбалансом та складними ознаками, а також завдяки 
оптимізованому підбору гіперпараметрів. Random Forest залишається 
корисною альтернативою для швидкого та стабільного моделювання, 
особливо у випадках, коли важлива простота налаштування та висока 
стійкість до шуму в даних. Вибір конкретної моделі залежить від вимог до 
точності, складності даних та ресурсів для навчання. 
 Лист 
 мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   82 
 
 
ВИСНОВКИ 
У роботі проведено детальний аналіз шахрайських транзакцій у 
фінансових системах, що дозволив виділити основні характеристики таких 
операцій. Було встановлено, що шахрайські транзакції зазвичай мають 
аномальні ознаки у часі, сумі, географії або поведінці користувачів, що 
відрізняє їх від звичайних фінансових операцій. Розуміння цих особливостей 
стало базою для побудови ефективної системи виявлення шахрайства з 
використанням методів машинного навчання. 
У рамках аналізу методів виявлення шахрайства були розглянуті 
традиційні підходи, такі як правила на основі порогів, статистичні методи та 
системи моніторингу транзакцій у реальному часі. Було встановлено, що такі 
методи, хоча й ефективні для простих випадків, мають обмеження при 
обробці великих обсягів даних та виявленні складних схем шахрайства, що 
стимулює використання сучасних алгоритмів машинного навчання. 
Дослідження існуючих систем виявлення шахрайських транзакцій 
показало, що найбільш ефективними є рішення, які поєднують класичні 
алгоритми з методами ML та глибокого навчання. Це дозволяє підвищити 
точність детекції, зменшити кількість хибнопозитивних сигналів та 
адаптувати систему до постійно змінюваних схем шахрайства. Аналіз систем 
показав необхідність правильної підготовки даних і підбору метрик 
ефективності для оцінки моделей. 
У роботі було детально розглянуто застосування методів машинного 
навчання у кібербезпеці, зокрема для виявлення шахрайських транзакцій. 
Використання алгоритмів Random Forest та XGBoost дозволяє 
автоматизувати процес аналізу великих обсягів транзакцій, виявляючи 
аномалії, які складно помітити за допомогою ручних або правилових методів. 
Такі моделі демонструють високу адаптивність до нових патернів 
шахрайства та здатність працювати з дисбалансом класів. 
 Лист 
 мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   83 
 
При розробці системи виявлення шахрайських транзакцій було 
проведено формалізацію проблеми, визначено цільову змінну та набір ознак 
для моделювання. Особлива увага приділялася підготовці даних. Це 
забезпечило коректну роботу моделей ML і високу точність прогнозів. 
Вибір метрик оцінки ефективності моделі, таких як F1-score, ROC-
AUC, Precision і Recall, дозволив комплексно оцінити продуктивність 
алгоритмів. Аналіз результатів показав, що XGBoost забезпечує вищу 
здатність до розділення класів та кращу узагальнювальну точність на 
валідаційній вибірці порівняно з Random Forest. Водночас Random Forest 
демонструє стабільну роботу та простоту налаштування, що робить його 
доцільним у задачах з меншими обсягами даних. 
Графічний та числовий аналіз матриці переплутування підтвердив, що 
XGBoost зменшує кількість хибнопозитивних і хибнонегативних прогнозів, 
що підвищує ефективність детекції шахрайства. Random Forest показав більш 
рівномірний розподіл помилок, але трохи поступається за точністю 
виявлення рідкісних класів. Використання підбору гіперпараметрів з крос-
валідацією дозволило обом моделям досягти оптимальної продуктивності. 
Отже, проведене дослідження підтвердило ефективність застосування 
методів машинного навчання для виявлення шахрайських транзакцій у 
фінансових системах. Використання моделей Random Forest та XGBoost 
дозволяє автоматизувати процес детекції, зменшити людський фактор та 
підвищити швидкість обробки великих обсягів даних. Порівняльний аналіз 
показав перевагу XGBoost у складних задачах з дисбалансом класів, тоді як 
Random Forest залишається надійним і стабільним інструментом для задач 
середньої складності. 
 
 
 Лист 
  мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   84 
 
СПИСОК ВИКОРИСТАНОЇ ЛІТЕРАТУРИ 
1. Фратавчан В.Г., Фратавчан Т.М., Лукашів Т.О., Літвінчук Ю.А., 
Методи та системи штучного інтелекту: навчальний посібник. 
Чернівці: ЧНУ, 2023, – 114 с. 
2. Методи та системи штучного інтелекту: Навчальний посібник / 
Уклад.: А.С.Савченко, О.О.Синельніков. – К. : НАУ, 2017. – 190 с. 
3. Засоби штучного інтелекту: навч. посіб. / Р. О. Ткаченко, 
Н. О. Кустра, О. М. Павлюк, У. В. Поліщук ; М-во освіти і науки 
України, Нац. ун-т «Львів. політехніка». — Львів: Вид-во Львів. 
політехніки, 2014. — 204 с.  
4. М. Л. Ковальчук, Ю. О. Ушенко, Д. І. Угрин. Методи та системи 
штучного інтелекту. Навчальний посібник. – Чернівці: Чернівецький 
національний університет ім. Ю. Федьковича, 2022. – 318 с. 
5. Дворжак В.В., Талах М.В. Глибинне навчання для комп’ютерного 
зору. Частина 1 / В.В. Дворжак, М.В. Талах – Чернівці: Технодрук, 
2022 р. – 271 с. 
6. Bart Baesens, Veronique Van Vlasselaer, and Wouter Verbeke "Fraud 
Analytics Using Descriptive, Predictive, and Social Network Techniques: 
A Guide to Data Science for Fraud Detection” // 2015. – Ch. 3-4 
7. “Classification: Accuracy, recall, precision, and related metrics – 
Machine Learning”. ‒ URL: https://developers.google.com/machine-
learning/crash-course/classification/accuracyprecision-recall (дата 
звернення: 05.09.2025) 
8. “XGBoost Documentation”. – URL: 
https://xgboost.readthedocs.io/en/stable/ (дата звернення: 12.11.2025). 
9. “imbalanced-learn documentation”. – URL: https://imbalanced-
learn.org/stable/ (дата звернення: 12.11.2025) 
10. Ishaan D., K. Narendra K., K. Gursheen K., C. Somya C., B. Aryan B., 
R. Meghavi R. Supervised Learning Methods for Identifying Credit Card 
 Лист 
  мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   85 
 
Fraud [Text] – International Conference on Innovative Data 
Communication Technologies and Application (ICIDCA), 2023 – P. 791-
796. 
11. Sudha T. R. C. Credit Card Fraud Detection in Internet using K Nearest 
Neighbour Algorithm [Text] – IPASJ international journal of computer 
science, 2017 – V. 5 – № 11. 
 
 Лист 
     мБі41.025.249.248 ПЗ 
Змін. Лист № докум. Підпис Дата   86
ChSTU repository

ChSTU repository preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets