Вопросы к Поиску с Алисой
Для Q-learning нужна память, чтобы минимизировать корреляцию между последовательными выборками. yandex.ru www.mql5.com Если бы сеть обучалась только на последовательных образцах опыта, последовательно возникающих в окружающей среде, образцы были бы сильно коррелированы и приводили бы к неэффективному обучению. yandex.ru
Для решения проблемы в алгоритме DQN при прохождении по состояниям среды агент сохраняет необходимый набор данных в буфер. www.mql5.com Размер буфера является гиперпараметром и определяется архитектором модели. www.mql5.com После заполнения буфера наиболее старые данные заменяются вновь поступившими. www.mql5.com При этом для обучения модели используются не текущее состояние, а случайно выбранные из буфера памяти агента. www.mql5.com Таким образом минимизируется взаимосвязь между отдельными состояниями и повышается способность модели к обобщению изучаемых данных. www.mql5.com