Мультимодальная нейросеть Яндекса VLM (Visual Language Model) работает с двумя модальностями — картинкой и текстом. yandex.cloud На вход такая система получает изображение, подпись либо их сочетание, а на выходе выдаёт осмысленный текст или составной (мультимодальный) ответ. yandex.cloud
Процесс работы VLM включает несколько этапов: www.braintools.ru
- Рефразер. www.braintools.ru Модель, опираясь на выход визуального поиска (теги, распознанный текст, объектный ответ и т. д.), формулирует запрос, который передаётся в текстовый поиск. www.braintools.ru
- Поиск информации. www.braintools.ru Система ищет источники в интернете, которые содержат релевантную информацию для ответа. www.braintools.ru
- Суммаризатор. www.braintools.ru После того как найдены нужные источники, вся имеющаяся информация отправляется в финальный VLM-суммаризатор. www.braintools.ru Эта модель формирует финальный ответ, не забывая учесть обозначенный в начале стиль. www.braintools.ru
VLM работает в двух режимах: www.braintools.ru
- Работа с изображением в чате. www.braintools.ru Пользователь отправляет в модель изображения вместе с текстовым запросом. www.braintools.ru
- Live-режим. www.braintools.ru yandex.ru Это живой голосовой диалог, когда можно направить камеру на интересующий объект и спросить про него всё что угодно. www.braintools.ru В модель отправляются кадры видеопотока с камеры. www.braintools.ru