Для переписывания кода Reinforcement Learning алгоритма под Multi-Agent RL, скорее всего, потребуется полный пересмотр. 1 Это связано с тем, что в мультиагентной среде оптимальность действий зависит от действий других агентов, и найти её гораздо труднее. 1
Некоторые рекомендации:
- Использовать специальные фреймворки. 1 Например, MAVA. 1
- Реализовать алгоритмы на основе PyTorch. 3 На GitHub есть репозиторий yangchen1997/Multi-Agent-Reinforcement-Learning, в котором реализованы алгоритмы многоагентного обучения с подкреплением, в том числе Grid-Wise Control, Qmix, Centralized PPO. 3 Во время обучения можно указывать разные стратегии обучения, а также сохранять модель и экспериментальные данные. 3
Для разработки многоагентного алгоритма обучения с подкреплением рекомендуется обратиться к специалисту.