РЕФЕРАТИВНА БАЗА ДАНИХ "УКРАЇНІКА НАУКОВА"
Abstract database «Ukrainica Scientific»


Бази даних


Реферативна база даних - результати пошуку


Вид пошуку
Пошуковий запит: (<.>ID=REF-0000807809<.>)
Загальна кількість знайдених документів : 1

Костенко С. В. 
Модель оцінки властивостей алгоритмів виправлення орфографічних помилок та її використання дляь україномовних застосунків / С. В. Костенко, В. А. Литвинов // Мат. машини і системи. - 2021. - № 2. - С. 62-73. - Бібліогр.: 14 назв. - укp.

Значна частина підходів та методів автоматичного виправлення помилок правопису є мовозалежною, орієнтованою на врахування граматичних правил і фонетики конкретної мови. Перевалена більшість робіт у цій сфері присвячена англомовним текстам, менша частина - іншим мовам германської групи, зовсім мала - слов'янським мовам і мізерна - українській мові. Розглянуто інструментарій (імітаційна модель (ІМ)) та пробні результати оцінки коригуючих властивостей деяких алгоритмів по відношенню до виправлення типових помилок тайпінга в україномовних словах за умови попередньої індексації словника. ІМ має модульну структуру і конфігурується до конкретних словників, типів помилок, алгоритмів генерації індексів. Для заданої комбінації "словник - тип помилок - алгоритм" ІМ спотворює слова заданого словника помилкою і шукає найбільш "близькі" слова-кандидати на виправлення помилкового слова. Загальний алгоритм обробки слова, в якому виявлено помилку, включає попередній вибір (ПВ) множини слів-кандидатів за правилами алгоритму індексації та остаточний вибір (ОВ) - пріоритезація обраних слів і звуження області пошуку "правильного" слова за прийнятими критеріями близькості до слова, що виправляється, і різними критеріями відбору. Пробне моделювання проведено для фонетичних алгоритмів Soundex і Metaphone, адаптованих до української мови. Як ансамбль помилок прийнятий набір помилок тайпінга, що включає чотири різні базові одиночні помилки (заміни, вставки, пропуски і перестановки символів), а також подвійні помилки, що представляють собою зважену суміш базових помилок. Опрацьовано 59,6 мли помилкових слів, середній час обробки одного слова склав 0,07 мс. Обговорено результати моделювання, що містять загальну кількість коректованих помилкових слів за видами помилок, кількість коректних пропозицій слів-кандидатів, кількість помилкових пропозицій, кількість відсутніх пропозицій, середню кількість кандидатів у пропозиціях на етапах ПВ і ОВ.


Індекс рубрикатора НБУВ: З970.62 + Ш141.14-85 с51

Рубрики:

Шифр НБУВ: Ж23045 Пошук видання у каталогах НБУВ 
Додаткова інформація про автора(ів) публікації:
(cписок формується автоматично, до списку можуть бути включені персоналії з подібними іменами або однофамільці)
  Якщо, ви не знайшли інформацію про автора(ів) публікації, маєте бажання виправити або відобразити більш докладну інформацію про науковців України запрошуємо заповнити "Анкету науковця"
 
Національна бібліотека України імені В. І. Вернадського
Відділ наукового формування національних реферативних ресурсів
Інститут проблем реєстрації інформації НАН України

Всі права захищені © Національна бібліотека України імені В. І. Вернадського