Мультимодальная нейросеть в современных ассистентах работает за счёт одновременной обработки нескольких типов данных (модальностей): текста, изображений, аудио, видео и даже сенсорной информации. 12
Главная цель — научить систему понимать, как разные модальности соотносятся друг с другом, и использовать это понимание для решения более сложных задач. 2 Например, при анализе видеоматериалов мультимодальная система обрабатывает не только визуальный контент, но и учитывает произносимые диалоги, окружающие звуки и сопровождающие субтитры. 4
Это достигается с помощью специальной архитектуры, которая включает: 2
Текст переводится в векторные представления с помощью языковой модели, изображения — с помощью свёрточной нейросети или трансформера для картинок, а дальше происходит их совместная обработка. 2
Некоторые примеры работы мультимодальных нейросетей: