В чем особенности мультимодальной модели Yandex VLM?

Алиса

На основе источников, возможны неточности

Как это работает?

Особенности мультимодальной модели Yandex VLM (Visual Language Model) — способность работать с разными типами данных одновременно: с текстом и изображениями. t.me

Некоторые возможности модели:

Работа с изображением в чате. www.braintools.ru Пользователь может добавить изображение в виде файла, а Алиса даст развёрнутый ответ на вопрос и отформатирует текст. www.braintools.ru

Live-режим. t.me www.braintools.ru Это живой голосовой диалог, когда можно направить камеру на интересующий объект и спросить про него всё что угодно. www.braintools.ru В модель отправляются кадры видеопотока с камеры. www.braintools.ru

Распознавание объектов через камеру смартфона. t.me Например, если сфотографировать продукты в холодильнике и спросить, что из них приготовить, VLM распознаёт объекты в кадре, и Алиса предложит несколько рецептов. t.me

Поиск Яндекса по картинкам. t.me Модель распознаёт объекты на экране и помогает найти информацию о них в интернете. t.me

VLM состоит из трёх компонентов: t.me

Языковая модель. t.me Умеет работать с текстами (в Алисе это YandexGPT 5 Pro). t.me

Визуальный энкодер. t.me Умеет работать с изображениями. t.me

Адаптер. t.me Нейросеть, которая объединяет визуальную и текстовую составляющую. t.me

Чтобы VLM научилась сопоставлять визуальные и текстовые векторы, её обучают на миллионах примеров (запрос с картинкой + готовый ответ). t.me

Пользователь

Время добавления

Текст комментария

Ответить

Показать X ответов

Пользователь

Время добавления

Текст ответа

Ответить

Примеры полезных ответов Поиска с Алисой на вопросы из разных сфер. Вопросы сгенерированы нейросетью YandexGPT для актуальных тем, которые определяются на базе обобщённых запросов к Поиску с Алисой.

Пожаловаться на контент

Пользовательское соглашение

Связаться с нами

Задать новый вопрос

Как это работает?

В чем особенности мультимодальной модели Yandex VLM?

Пользователь

Время добавления

Текст комментария

Пользователь

Время добавления

Текст ответа

Комментарии