Adaptive hybrid SMS spam detection system with user feedback-based self-learning

Liakh, Ihor; Chorniy, Andriy; Lutak, Oksana; Tsenkner, Marian; Лях, Ігор; Чорній, Андрій Михайлович; Лутак, Оксана; Ценкнер, Мар’ян

doi:https://doi.org/10.62660/bcstu/3.2025.121

Please use this identifier to cite or link to this item: https://er.chdtu.edu.ua/handle/ChSTU/9063

Title:	Adaptive hybrid SMS spam detection system with user feedback-based self-learning
Other Titles:	Adaptive hybrid SMS spam detection system with user feedback-based self-learning
Authors:	Liakh, Ihor Chorniy, Andriy Lutak, Oksana Tsenkner, Marian Лях, Ігор Чорній, Андрій Михайлович Лутак, Оксана Ценкнер, Мар’ян
Keywords:	natural language processing;long short term memory;architecture of spam;messages;metric;обробка природної мови;довга короткочасна пам’ять;архітектура спаму;повідомлення;метрика
Issue Date:	2025
Publisher:	Вісник Черкаського державного технологічного університету
Abstract:	This study presented a comprehensive approach to SMS spam detection based on a hybrid architecture that integrated local message processing algorithms with high-performance cloud-based deep learning models. This approach enabled a balance between classification accuracy and the privacy of processed messages. The objective of this study was to develop an intelligent hybrid SMS spam detection system capable of delivering high classification accuracy, maintaining up-to-date knowledge, enabling user personalisation, and adapting to new attack patterns. To achieve the study’s objective, a comprehensive analytical approach was applied, combining a detailed review of scientific literature on SMS spam detection – including machine learning, neural networks, and hybrid methods – with empirical analysis. To implement classic machine learning models (Naïve Bayes, Logistic Regression, Random Forest), standard machine learning libraries were used, and for deep learning, frameworks that support recurrent neural networks, in particular Long Short-Term Memory and transformer architectures, were applied. The system was tested on the open SMS Spam Collection dataset using Accuracy (up to 0.98), F1-score (up to 0.95) and ROC-AUC (up to 0.98) metrics. Moreover, a system was developed to dynamically update knowledge based on user feedback, alongside a weighted framework designed to evaluate the trustworthiness of that feedback. During the study, a multi-level system was developed that performed initial classification on the user’s device with the ability to delegate processing to a cloud module in cases of uncertainty. Compared to basic approaches, the hybrid architecture demonstrated improved classification accuracy, reduced false positives and false negatives, and increased adaptability to changes in the structure of spam messages. Aggregation of suspicious messages in the cloud ensured effective retraining of models in cases of conceptual shift. The practical value of the results lies in the potential integration of the developed system into mobile platforms, as well as corporate information security tools, for the purpose of filtering SMS content and protecting end-users from social engineering. У статті представлено комплексний підхід до виявлення SMS-спаму на основі гібридної архітектури, яка поєднує локальні алгоритми обробки повідомлень із високопродуктивними хмарними моделями глибокого навчання. Такий підхід дозволяє досягти балансу між точністю та конфіденційністю обробки вхідних повідомлень. Метою дослідження було створення інтелектуальної гібридної системи виявлення SMS-спаму, яка забезпечувала б високу точність класифікації, підтримку актуальності знань, персоналізацію для користувачів та здатність адаптуватися до нових шаблонів атак. Для досягнення мети дослідження було застосовано комплексний аналітичний підхід, що поєднував детальний огляд наукової літератури з питань виявлення спаму в SMS-повідомленнях, включаючи машинне навчання, нейронні мережі та гібридні методи, з емпіричним аналізом. Для реалізації класичних моделей машинного навчання (Naïve Bayes, Logistic Regression, Random Forest) використовувалися стандартні бібліотеки машинного навчання, а для глибокого навчання – фреймворки, що підтримують рекурентні нейронні мережі, зокрема Long Short-Term Memory та трансформерні архітектури. Тестування системи на відкритому датасеті SMS Spam Collection з використанням метрик Accuracy (до 0,98), F1-score (до 0,95) та ROC-AUC (до 0,98). Додатково було реалізовано механізм динамічного оновлення знань через зворотний зв’язок користувача та запропоновано вагову систему оцінки достовірності фідбеку. У ході дослідження було розроблено багаторівневу систему, що виконувала початкову класифікацію на пристрої користувача з можливістю делегування обробки хмарному модулю у випадках невизначеності. У порівнянні з базовими підходами, гібридна архітектура продемонструвала покращення точності класифікації, зниження кількості хибнопозитивних і хибнонегативних спрацьовувань, а також підвищену адаптивність до змін у структурі spam-повідомлень. Агрегація підозрілих повідомлень у хмарі забезпечувала ефективне донавчання моделей у випадках концептуального зсуву. Практична цінність результатів полягає в можливості інтеграції розробленої системи для мобільних платформ, а також у корпоративні засоби інформаційної безпеки з метою фільтрації SMS-контенту та захисту кінцевих користувачів від соціальної інженерії.
URI:	https://er.chdtu.edu.ua/handle/ChSTU/9063
ISSN:	2306-4412 (print) 2708-6070 (online)
DOI:	https://doi.org/10.62660/bcstu/3.2025.121
Volume:	30
Issue:	3
First Page:	121
End Page:	132
Appears in Collections:	том 30, №3/2025

Files in This Item:

File	Size	Format
зміст.pdf	161.04 kB	Adobe PDF	View/Open
титул.pdf	234.55 kB	Adobe PDF	View/Open
12.pdf	2.1 MB	Adobe PDF	View/Open

Show full item record

ChSTU repository

ChSTU repository preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets