Для переписывания кода Reinforcement Learning алгоритма под Multi-Agent RL, скорее всего, потребуется полный пересмотр. yandex.ru Это связано с тем, что в мультиагентной среде оптимальность действий зависит от действий других агентов, и найти её гораздо труднее. yandex.ru
Некоторые рекомендации:
- Использовать специальные фреймворки. yandex.ru Например, MAVA. yandex.ru
- Реализовать алгоритмы на основе PyTorch. github.com На GitHub есть репозиторий yangchen1997/Multi-Agent-Reinforcement-Learning, в котором реализованы алгоритмы многоагентного обучения с подкреплением, в том числе Grid-Wise Control, Qmix, Centralized PPO. github.com Во время обучения можно указывать разные стратегии обучения, а также сохранять модель и экспериментальные данные. github.com
Для разработки многоагентного алгоритма обучения с подкреплением рекомендуется обратиться к специалисту.