Особенности мультимодальной модели Yandex VLM (Visual Language Model) — способность работать с разными типами данных одновременно: с текстом и изображениями. t.me
Некоторые возможности модели:
- Работа с изображением в чате. www.braintools.ru Пользователь может добавить изображение в виде файла, а Алиса даст развёрнутый ответ на вопрос и отформатирует текст. www.braintools.ru
- Live-режим. t.me www.braintools.ru Это живой голосовой диалог, когда можно направить камеру на интересующий объект и спросить про него всё что угодно. www.braintools.ru В модель отправляются кадры видеопотока с камеры. www.braintools.ru
- Распознавание объектов через камеру смартфона. t.me Например, если сфотографировать продукты в холодильнике и спросить, что из них приготовить, VLM распознаёт объекты в кадре, и Алиса предложит несколько рецептов. t.me
- Поиск Яндекса по картинкам. t.me Модель распознаёт объекты на экране и помогает найти информацию о них в интернете. t.me
VLM состоит из трёх компонентов: t.me
- Языковая модель. t.me Умеет работать с текстами (в Алисе это YandexGPT 5 Pro). t.me
- Визуальный энкодер. t.me Умеет работать с изображениями. t.me
- Адаптер. t.me Нейросеть, которая объединяет визуальную и текстовую составляющую. t.me
Чтобы VLM научилась сопоставлять визуальные и текстовые векторы, её обучают на миллионах примеров (запрос с картинкой + готовый ответ). t.me