Mishchenko M. V. Semantic analysis and classification of malware for UNIX-like operating systems with the use of machine learning methods = Семантичний аналіз і класифікація шкідливого програмного забезпечення для UNIX-подібних систем з використанням методів машинного навчання / M. V. Mishchenko, M. S. Dorosh // Appl. Aspects of Inform. Technology. - 2022. - 5, № 4. - С. 371-386. - Бібліогр.: 28 назв. - англ.Увагу зосереджено на класифікації шкідливих програм на підставіві семантичного аналізу кодів операцій дизасембльованих секцій бінарних виконуваних файлів із використанням n-грам, індикатора TF-IDF та алгоритмів машинного навчання. Мета дослідження - вдосконалення та розширення наявних методів ідентифікації шкідливих програм, розроблених для UNIX-подібних операційних систем. Завданням дослідження є створення алгоритму, який може ідентифікувати типи загроз у шкідливих бінарних файлах для UNIX-подібних систем за допомогою n-грам, індикатора TF-IDF та алгоритмів машинного навчання. Процес класифікації шкідливих програм може базуватися на статичних або динамічних сигнатурах. Статичні сигнатури можуть бути представлені у вигляді послідовностей байт-коду, двійкових інструкцій або імпортованих бібліотек. Динамічні сигнатури можна представити як послідовність дій шкідливого ПЗ. Використано стратегію статичних сигнатур для семантичного аналізу та класифікації шкідливих програм. Використано двійкові файли ELF, які є найпоширенішим типом виконуваних файлів для UNIX-подібних операційних систем. Для цілей дослідження було зібрано набір даних із 2999 зразків шкідливих ELF файлів, використовуючи дані з сайтів VirusShare та VirusTotal, а також 959 нешкідливих програмних файлів із директорії /usr/bin в операційній системі Linux. Шкідливі файли є одним із 3-х сімейств шкідливих програм: Gafgyt, Mirai та Lightaidra, які є поширеними загрозами для UNIX-подібних систем. У отриманому наборі даних для кожного ELF файлу було проставлено мітку відподвідно до його типу. Запропонований алгоритм класифікації складається з кількох етапів підготовки: дизасемблювання кожного бінарного ELF файлу з набору даних і семантична обробка та векторизація інструкцій із кожної з секцій файлу. Для встановлення порогу класифікації використовується поліноміальна модель Байєса. Використовуючи поріг класифікації, визначено розмір n-грам і секцію файлу, які дадуть найкращі результати класифікації. В результаті виявлено, що найкраща точність класифікації отримана для n-gram розміру 4 і секції rodata. Щоб отримати найкращу точність, буде використано декілька моделей машинного навчання разом із оптимізацією гіперпараметрів. Як метрика точності розробленого алгоритму використовується середня точність і зважена оцінка F1. Стохастичний градієнтний спуск для моделі SVM було обрано як найкращу модель ML на основі отриманих експериментальних результатів. Експериментально підтверджено ефективність розробленого алгоритму для класифікації шкідливих програм для UNIX-подібних операційних систем. Результати проаналізовано та використано для висновків і пропозицій для подальшої роботи. Індекс рубрикатора НБУВ: З973-018.10
Рубрики:
Шифр НБУВ: Ж101736 Пошук видання у каталогах НБУВ Додаткова інформація про автора(ів) публікації: (cписок формується автоматично, до списку можуть бути включені персоналії з подібними іменами або однофамільці)  Якщо, ви не знайшли інформацію про автора(ів) публікації, маєте бажання виправити або відобразити більш докладну інформацію про науковців України запрошуємо заповнити "Анкету науковця"
|