Разница между self-attention и cross-attention в современных нейросетевых моделях заключается в том, как они обрабатывают входные данные. 7
Self-attention (внутреннее внимание) работает с одной входной последовательностью. 7 Модель фокусируется на разных частях входного сигнала при предсказании определённого элемента внутри этой последовательности. 4 Self-attention помогает модели понять, как элементы изображения связаны между собой. 1
Cross-attention (перекрёстное внимание) объединяет две разные входные последовательности. 7 Запросы в этом случае берутся из одной последовательности (например, из входа декодера), а ключи и значения — из другой (например, из выхода энкодера). 59 Cross-attention позволяет модели сосредоточиться на значимых частях разных входных последовательностей и эффективно интегрировать информацию из различных источников. 5
Таким образом, self-attention ориентирован на внутренние взаимосвязи внутри одной последовательности, а cross-attention — на взаимодействие между двумя разными последовательностями. 17