Разница между обучением с подкреплением и обучением с учителем заключается в подходе к тренировке моделей и в степени вовлечённости человека в процесс. 3
Обучение с учителем (supervised learning) предполагает, что модель обучают на примерах, где «учителем» называют правильные ответы. 1 Эти ответы называют метками, а данные с метками — размеченными. 1 После обучения модели предлагают проанализировать незнакомые данные. 3 Если модель ошибается, то учитель исправляет её. 3 Так программа учится, пока не достигнет нужной точности ответов. 3
Обучение с подкреплением (reinforcement learning) — это обучение методом проб и ошибок. 1 Для этого не нужен учитель или специальный обучающий набор данных — только чёткие задачи и критерии оценки их выполнения. 2 Нейронная сеть получает входные данные и случайным образом их обрабатывает. 2 Потом результат её работы оценивают по определённым критериям. 2 Нейросеть видит эти критерии — и в следующий раз обрабатывает данные так, чтобы им соответствовать. 2
Таким образом, при обучении с учителем человек предоставляет примеры, которые модель использует для обучения и последующего применения к новым данным, а при обучении с подкреплением модель обучается через «взаимодействие» со средой, получая награды или штрафы за свои действия. 4