РЕФЕРАТИВНА БАЗА ДАНИХ "УКРАЇНІКА НАУКОВА"
Abstract database «Ukrainica Scientific»


Бази даних


Реферативна база даних - результати пошуку


Вид пошуку
Пошуковий запит: (<.>ID=REF-0000834230<.>)
Загальна кількість знайдених документів : 1

Kosiv Yu. A. 
Three language political leaning text classification using natural language processing methods = Класифікація політичної забарвленості тексту трьома мовами з використанням методів опрацювання природної мови / Yu. A. Kosiv, V. S. Yakovyna // Appl. Aspects of Inform. Technology. - 2022. - 5, № 4. - С. 359-370. - Бібліогр.: 33 назв. - англ.

Здійснено розв'язання задачі класифікації політичної забарвленості текстового ресурсу. Виконано аналіз 10-ти досліджень за темою роботи у вигляді порівняльної характеристики інструментарію. Літературні джерела порівнювались за методами розв'язання задач, здійсненим навчанням, метриками оцінки та способами векторизації. Таким чином визначено, що для розв'язання задачі найчастіше використовувались алгоритми машинного навчання та нейронні мережі, а також способи представлення ознак TF-IDF і Word2Vec. Побудовано різноманітні моделі класифікації того, чи текстова інформація є проукраїнською, чи проросійською на основі набору даних, що містив повідомлення користувачів соціальних мереж про події широкомасштабного російського вторгнення в Україну з 24 лютого 2022 р. Розв'язання задачі здійснювалось за допомогою алгоритмів машинного навчання Support Vector Machines, Decision Tree, Random Forest, Na?ve Bayes classifier, eXtreme Gradient Boosting та Logistic Regression, нейронних мереж Convolutional Neural Networks, Long short-term memory та BERT, технік роботи з незбалансованими даними Random Oversampling, Random Undersampling, SMOTE та SMOTETomek, а також ансамблів моделей stacking. З алгоритмів машинного навчання найкраще впорався LR, який продемонстрував значення макро F1-міри рівне 0,7966, коли ознаки були перетворені векторизацією TF-IDF, а коли BoW - 0,7933. З нейронних мереж найкраще значення макро F1-міри рівне 0,76 отримано за допомогою CNN і LSTM. Застосуванням технік балансування даних не вдалося покращити результати алгоритмів машинного навчання. Визначено ансамблі моделей, які складались з алгоритмів машинного навчання. Двома з побудованих ансамблів було досягнуто те ж значення макро F1-міри 0,7966, що і за допомогою LR. Ансамблі, яким вдалося це зробити, складались з векторизації TF-IDF, метамоделі B-NBC і базових моделей SVC, NuSVC LR і SVC, LR відповідно. Таким чином 3 класифікатори, алгоритм машинного навчання LR і 2 ансамблі моделей, які визначені шляхом здійснення комбінації наявних способів розв'язання задачі класифікації політичної забарвленості текстового ресурсу, продемонстрували найбільше значення макро F1-міри 0,7966.



Шифр НБУВ: Ж101736 Пошук видання у каталогах НБУВ 
Повний текст  Наукова періодика України 
  Якщо, ви не знайшли інформацію про автора(ів) публікації, маєте бажання виправити або відобразити більш докладну інформацію про науковців України запрошуємо заповнити "Анкету науковця"
 
Національна бібліотека України імені В. І. Вернадського
Відділ наукового формування національних реферативних ресурсів
Інститут проблем реєстрації інформації НАН України

Всі права захищені © Національна бібліотека України імені В. І. Вернадського