Основное отличие обучения с подкреплением от контролируемого обучения заключается в подходе к обучению и в том, как система получает информацию. 1
Контролируемое обучение («обучение с учителем») предполагает использование ИИ всего изученного в прошлом к новым данным. 4 Для предсказания будущих событий используются помеченные пользователем примеры. 4 Машина получает ключ к ответу и учится путём нахождения корреляций между всеми правильными результатами. 1
Обучение с подкреплением не включает ключ к ответу, а вводит набор допустимых действий, правил и потенциальных конечных состояний. 1 Система учится при помощи опыта и вознаграждения. 1 В моделях обучения с подкреплением «вознаграждение» является числовым и запрограммировано в алгоритме как нечто, что система стремится собрать. 1
Таким образом, контролируемое обучение ориентировано на работу с помеченными данными, а обучение с подкреплением — на решение задач, где желаемый результат является изменчивым и система должна учиться при помощи опыта и взаимодействия с окружающей средой. 12