Shanin A. Rotation Forest model modification within the email spam classification = Модифікація моделі Rotation Forest в рамках задачі класифікації спаму електронної пошти / A. Shanin // Системи оброб. інформації. - 2021. - № 1. - С. 114-120. - Бібліогр.: 21 назв. - англ.Збільшення використання електронної пошти в щоденних транзакціях для багатьох підприємств або загального спілкування завдяки своїй економічній ефективності зроблено електронні листи вразливими до атак, включаючи спам. Спам-листи - це небажані повідомлення, які дуже схожі один до одного та надсилаються декільком одержувачам випадковим чином. Аналізуючи останні дослідження та публікації в цій галузі, зроблено висновок, що найбільш якісним способом векторизації тексту для подальшої класифікації є поєднання методів PV-DM та TF-IDF, а найкраща модель для класифікації спаму це Rotation Forest. Мета дослідження - модифікація моделі Rotation Forest та створення найбільш якісного класифікатора для задачі класифікації спаму електронної пошти. Оскільки алгоритм Naive Bayes в рамках класифікації спаму працює набагато краще, ніж Decision Tree, було вирішено використовувати алгоритм Naive Bayes як базовий алгоритм у модифікованій моделі Rotation Forest. Виходячи з результатів досліджень методів оптимізацій, виявилось що оптимізація рою частинок (PSO) значно покращує ефективність алгоритму Naive Bayes в рамках класифікації спаму. Тому для тренування базових слабких алгоритмів також застосовували оптимізацію PSO. Для поліпшення стабільності класифікатора експерименти проводились на основі комбінації Enron, Ling та SpamAssasin датасетів і оцінювались з точки зору точності (accuracy), f-міри (f-measure), влучності (precision) та повноти (recall). В результаті експериментів було показано, що запропонований модифікований алгоритм Rotation Forest дійсно працює значно кращє відносно стандартного алгоритму Rotation Forest. Модифікований алгоритм Rotation Forest показав високу точність класифікації в 99,14 %, тоді як стандартний Rotation Forest працює з точністю 96,97 %. В результаті дослідження ми створили справді якісний класифікатор. Однак, оскільки точність класифікації не є 100 %, цьому алгоритму є куди рости. Індекс рубрикатора НБУВ: З970.312.0
Рубрики:
Шифр НБУВ: Ж70474 Пошук видання у каталогах НБУВ Повний текст Наукова періодика України
Якщо, ви не знайшли інформацію про автора(ів) публікації, маєте бажання виправити або відобразити більш докладну інформацію про науковців України запрошуємо заповнити "Анкету науковця"
|