Основное отличие архитектуры декодировщика от архитектуры кодировщика в трансформере заключается в их функциях. 25
Кодировщик (англ. encoder) получает входные данные и строит их репрезентацию (формирует признаки). 2 Модель нацелена на «понимание» входных данных. 2 В кодировщике слои внимания могут использовать все слова в предложении. 2
Декодировщик (англ. decoder) использует репрезентации (признаки) кодировщика с другими входными данными для создания нужной последовательности. 2 Модель нацелена на генерацию выходных данных. 2 Декодировщик работает последовательно и может обращать внимание только на слова в предложении, которые он уже перевёл (то есть только на слова перед генерируемым в данный момент словом). 2
Таким образом, кодировщик фокусируется на обработке входных данных, а декодировщик — на генерации выходных. 25