Будь ласка, використовуйте цей ідентифікатор, щоб цитувати або посилатися на цей матеріал:
https://er.chdtu.edu.ua/handle/ChSTU/4691
Назва: | Malware detection model based on machine learning |
Інші назви: | Модель виявлення шкідливого програмного забезпечення на основі машинного навчання |
Автори: | Nafiiev, Alan Lande, Dmytro |
Ключові слова: | intrusion detection;PE format;feature extraction;disassembled instructions;support vector machine;виявлення вторгнень;PE формат;вилучення ознак;дизасембльовані інструкції;машина опорних векторів |
Дата публікації: | 2023 |
Видавництво: | Вісник Черкаського державного технологічного університету. Технічні науки |
Короткий огляд (реферат): | Every year, malware authors create more and more sophisticated and clever malware that
can harm our computers. Traditional methods, which are based on searching for program signatures
are no longer effective in solving the problem of malware detection. It is being replaced by automated
file analysis, which is a more promising approach to detecting suspicious files. Machine learning
methods are increasingly used to detect such malware programs. However, such solutions may require
a lot of computing resources to perform their operations. Therefore, the task of creating an optimal
machine learning model in terms of learning speed and malware detection accuracy arises. In addition,
usually one method of data representation is not sufficient to detect malicious features of files.
Therefore, this paper will describe two different methods: one method is based on the binary
information of the file, the other one is based on disassembled code of executable files. The purpose of
this work is to improve the efficiency of malware detection by optimising feature extraction methods
and applying machine learning. The main tasks of the study include: extracting features from exe files,
creating several machine learning models and comparing them to determine the most effective one.
The dataset used in this study has been collected from various online sources and consists of 12824
executable files in .exe format, of which 11844 files are malicious and 980 are benign. This paper
presents recommended methods of feature extraction and input data generation for machine learning
models based on the support vector machine algorithm. These methods allow to find the best way to
process the features describing a malicious file. Six machine learning models, each of which
performed well in terms of F-score, precision, and recall metrics, were created. The model that was
created based on the binary type of data representation showed the highest results for all metrics. З кожним роком автори шкідливого програмного забезпечення створюють все більш досконалі та хитромудрі шкідливі програми, які можуть завдати шкоди нашим комп’ютерам. Традиційні методи, які ґрунтуються на пошуку сигнатур програм, перестають бути ефективними для вирішення проблеми детекції шкідливого програмного забезпечення. На зміну приходить автоматизація аналізу файлів, яка є більш перспективним підходом для виявлення підозрілих файлів. Для виявлення таких програм все частіше використовують методи машинного навчання. Однак для виконання своїх операцій такі рішення можуть потребувати багато обчислювальних ресурсів. Тому виникає задача створення оптимальної моделі машинного навчання з погляду швидкості навчання і точності детекції шкідливого програмного забезпечення. Крім того, зазвичай одного методу представлення даних недостатньо для якісного виявлення шкідливих ознак файлів. Тому в цій роботі буде описано два різні методи: один підхід ґрунтується на бінарній інформації файлу, другий полягає у використанні трасувальних інструкцій. Мета цієї роботи – підвищення ефективності виявлення шкідливого програмного забезпечення шляхом оптимізації методів вилучення ознак та застосування машинного навчання. Основні задачі дослідження включають: вилучення ознак з exe. файлів, створення кількох моделей машинного навчання та їх порівняння для визначення найефективнішої моделі. Використаний у цьому дослідженні набір даних був зібраний з різних інтернет-джерел та складається з 12824 виконуваних файлів у форматі .exe, з яких 11844 файлів є шкідливими, а 980 – доброякісними. У статті представлено рекомендовані методи вилучення ознак та генерації вхідних даних для моделей машинного навчання на основі алгоритму машини опорних векторів. Ці методи дозволяють знайти найкращий шлях для обробки ознак, що описують шкідливий файл. Було створено шість моделей машинного навчання, кожна з яких показала високі показники метрик F-score, precision та recall. Модель, яка була створена на основі бінарного типу представлення даних, показала найвищі результати по всіх метриках. |
URI (Уніфікований ідентифікатор ресурсу): | https://er.chdtu.edu.ua/handle/ChSTU/4691 |
ISSN: | 2306-4412 (print) 2708-6070 (online) |
DOI: | 10.24025/2306-4412.3.2023.286374 |
Випуск: | 3 |
Початкова сторінка: | 40 |
Кінцева сторінка: | 50 |
Розташовується у зібраннях: | №3/2023 |
Файли цього матеріалу:
Файл | Опис | Розмір | Формат | |
---|---|---|---|---|
6.pdf | 2.26 MB | Adobe PDF | ![]() Переглянути/Відкрити | |
зміст.pdf | 382.52 kB | Adobe PDF | ![]() Переглянути/Відкрити | |
титул.pdf | 844.68 kB | Adobe PDF | ![]() Переглянути/Відкрити |
Усі матеріали в архіві електронних ресурсів захищено авторським правом, усі права збережено.