Вопросы к Поиску с Алисой
Метод Stackelberg в контексте обучения с подкреплением (RL) предполагает моделирование процесса обучения как игры с общим счётом для двух игроков со структурой «лидер-последователь». paperswithcode.com cdn.aaai.org
Игрок-лидер оптимизирует свою цель с учётом ожидаемого ответа игрока-последователя, а последователь, в свою очередь, выбирает лучший ответ на действие лидера, чтобы оптимизировать свою собственную цель. cdn.aaai.org
В алгоритме StackelbergLearner игрок-лидер обновляется в соответствии с общей производной от своей цели вместо обычного индивидуального градиента, а игрок-последователь вносит индивидуальные обновления и обеспечивает пессимистические рассуждения, соответствующие переходу. paperswithcode.com
Такой подход обеспечивает динамику обучения, которая даёт алгоритму теоретико-игровую интерпретацию и гарантирует сходимость к дифференцируемым равновесиям Штакельберга. paperswithcode.com