Dzhoha A. S. Bernoulli multi-armed bandit problem under delayed feedback = Багаторукий бандит з розподілом Бернуллі в середовищі з затримками / A. S. Dzhoha // Вісн. Київ. нац. ун-ту. Сер. Фіз.-мат. науки. - 2021. - Вип. 1. - С. 20-26. - Бібліогр.: 13 назв. - англ.Останнім часом все більше уваги приділяється онлайновому навчанню машин з відкладеним зворотнім зв'язком. Навчання з затримками є доцільнішим у більшості практичних застосувань, оскільки зворотній зв'язок від навколишнього середовища не є миттєвим. Наприклад, в клінічних випробуваннях, результати яких використано в даній роботі, прояв реакції на ліки може зайняти деякий час. У даній роботі розглядається проблема стаціонарного стохастичного багаторукого бандита в середовищі з затримками, де кожна дія задається розподілом Бернуллі, параметри якого не відомі заздалегідь. Головною метою моделі у представленому середовищі є максимізація сукупної винагороди на скінченному горизонті, що еквівалентно мінімізації сукупних втрат. Розглянуто стратегію Explore-First для даного випадку, яка визначається кількістю разів кожної дії, що буде обрана для дослiдження. Наведено асимптотичний аналіз ефективності алгоритму і вивчено вплив затримок у середовищі. Одержані теоретичні результати використовуються для розробки програмного забезпечення для проведення числових експериментів. Індекс рубрикатора НБУВ: З810.4
Рубрики:
Шифр НБУВ: Ж28079:Фіз.-мат. Пошук видання у каталогах НБУВ
![](/irbis_nbuv/images/info.png) Якщо, ви не знайшли інформацію про автора(ів) публікації, маєте бажання виправити або відобразити більш докладну інформацію про науковців України запрошуємо заповнити "Анкету науковця"
|