Teacher forcing — это техника обучения рекуррентных нейронных сетей (RNN) и других моделей, которые работают с последовательностями, в частности для задач моделирования языка, перевода и генерации текста. 1
Суть концепции: вместо того, чтобы использовать в качестве входных данных для следующего шага обучения предыдущий вывод модели, в качестве входных данных предоставляют фактический (правильный) вывод из обучающих данных. 1
Цель такого подхода: помочь модели более эффективно выучить правильную последовательность выходных токенов и стабилизировать процесс обучения. 1
Некоторые области применения teacher forcing:
Несмотря на преимущества, у teacher forcing есть и недостатки: несоответствие между обучением модели и её работой во время вывода, что может привести к снижению производительности и нестабильности. 4