Система Q-learning помогает в обучении нейронных сетей за счёт обучения с подкреплением. events.rudn.su habr.com Это подход, при котором нейросеть сама учится выполнять задачу, изначально она не ставится. habr.com Алгоритм может только выполнять какие-то действия и получать за них награду (или штраф). habr.com
Некоторые особенности Q-learning:
- Формирование функции полезности. events.rudn.su На основе оценки своих действий из окружающей среды агент формирует функцию полезности Q. events.rudn.su Благодаря этому он учится не случайно выбирать действие, а основываясь на опыте работы со средой. events.rudn.su
- Обновление Q-функции. ptsj.bmstu.ru itstd-journal.ru Агент постоянно обновляет свои Q-значения по формуле на основе полученных наград и результатов своих действий. ptsj.bmstu.ru
- Выбор действий, которые максимизируют награду. itstd-journal.ru Агент пытается выбирать действия, которые максимизируют получаемую награду в задаче. itstd-journal.ru
Q-learning широко применяется в задачах, требующих принятия последовательных решений в неопределённой среде. itstd-journal.ru Например, в задачах распознавания образов. itstd-journal.ru