Основные преимущества метода итерации политики в алгоритмах обучения с подкреплением:
Итерация политики представляет собой цикл между оценкой политики и её улучшением, который продолжается до схождения. 1
Также преимущество метода итерации политики в том, что он позволяет найти оптимальное действие (решение), которое будет выгодно в долгосрочной перспективе, даже если в краткосрочной перспективе приходится принимать нежеланнные действия. 5