Как работает мультимодальная нейросеть Яндекса VLM?

Алиса

На основе источников, возможны неточности

Как это работает?

Мультимодальная нейросеть Яндекса VLM (Visual Language Model) работает с двумя модальностями — картинкой и текстом. yandex.cloud На вход такая система получает изображение, подпись либо их сочетание, а на выходе выдаёт осмысленный текст или составной (мультимодальный) ответ. yandex.cloud

Процесс работы VLM включает несколько этапов: www.braintools.ru

Рефразер. www.braintools.ru Модель, опираясь на выход визуального поиска (теги, распознанный текст, объектный ответ и т. д.), формулирует запрос, который передаётся в текстовый поиск. www.braintools.ru

Поиск информации. www.braintools.ru Система ищет источники в интернете, которые содержат релевантную информацию для ответа. www.braintools.ru

Суммаризатор. www.braintools.ru После того как найдены нужные источники, вся имеющаяся информация отправляется в финальный VLM-суммаризатор. www.braintools.ru Эта модель формирует финальный ответ, не забывая учесть обозначенный в начале стиль. www.braintools.ru

VLM работает в двух режимах: www.braintools.ru

Работа с изображением в чате. www.braintools.ru Пользователь отправляет в модель изображения вместе с текстовым запросом. www.braintools.ru

Live-режим. www.braintools.ru yandex.ru Это живой голосовой диалог, когда можно направить камеру на интересующий объект и спросить про него всё что угодно. www.braintools.ru В модель отправляются кадры видеопотока с камеры. www.braintools.ru

Пользователь

Время добавления

Текст комментария

Ответить

Показать X ответов

Пользователь

Время добавления

Текст ответа

Ответить

Примеры полезных ответов Поиска с Алисой на вопросы из разных сфер. Вопросы сгенерированы нейросетью YandexGPT для актуальных тем, которые определяются на базе обобщённых запросов к Поиску с Алисой.

Пожаловаться на контент

Пользовательское соглашение

Связаться с нами

Задать новый вопрос

Как это работает?

Как работает мультимодальная нейросеть Яндекса VLM?

Пользователь

Время добавления

Текст комментария

Пользователь

Время добавления

Текст ответа

Комментарии