Обучение с подкреплением (Reinforcement Learning) — это метод машинного обучения, в котором система (агент) обучается методом проб и ошибок. 3 Идея заключается в том, что агент взаимодействует со средой, параллельно обучаясь, и получает вознаграждение за выполнение действий. 3
Суть метода в том, что нейронная сеть получает входные данные и случайным образом их обрабатывает. 4 Потом результат её работы оценивают по определённым критериям. 4 Нейросеть видит эти критерии — и в следующий раз обрабатывает данные так, чтобы им соответствовать. 4 Прежде чем удаётся сформировать оптимальную стратегию, проходит много итераций. 4
Пример: нейросеть, которую тренируют выигрывать в определённую игру. 4 Сначала она играет случайно и видит результат. 4 Потом «пробует» другие стратегии, постепенно формируя паттерн поведения, который позволяет набрать максимум баллов. 4