Вопросы к Поиску с Алисой

Примеры ответов Поиска с Алисой
Главная / Технологии / В чем особенности мультимодальной модели Yandex VLM?
Вопрос для Поиска с Алисой
26 декабря

В чем особенности мультимодальной модели Yandex VLM?

Алиса
На основе источников, возможны неточности

Особенности мультимодальной модели Yandex VLM (Visual Language Model) — способность работать с разными типами данных одновременно: с текстом и изображениями. t.me

Некоторые возможности модели:

  • Работа с изображением в чате. www.braintools.ru Пользователь может добавить изображение в виде файла, а Алиса даст развёрнутый ответ на вопрос и отформатирует текст. www.braintools.ru
  • Live-режим. t.me www.braintools.ru Это живой голосовой диалог, когда можно направить камеру на интересующий объект и спросить про него всё что угодно. www.braintools.ru В модель отправляются кадры видеопотока с камеры. www.braintools.ru
  • Распознавание объектов через камеру смартфона. t.me Например, если сфотографировать продукты в холодильнике и спросить, что из них приготовить, VLM распознаёт объекты в кадре, и Алиса предложит несколько рецептов. t.me
  • Поиск Яндекса по картинкам. t.me Модель распознаёт объекты на экране и помогает найти информацию о них в интернете. t.me

VLM состоит из трёх компонентов: t.me

  1. Языковая модель. t.me Умеет работать с текстами (в Алисе это YandexGPT 5 Pro). t.me
  2. Визуальный энкодер. t.me Умеет работать с изображениями. t.me
  3. Адаптер. t.me Нейросеть, которая объединяет визуальную и текстовую составляющую. t.me

Чтобы VLM научилась сопоставлять визуальные и текстовые векторы, её обучают на миллионах примеров (запрос с картинкой + готовый ответ). t.me

Примеры полезных ответов Поиска с Алисой на вопросы из разных сфер. Вопросы сгенерированы нейросетью YandexGPT для актуальных тем, которые определяются на базе обобщённых запросов к Поиску с Алисой.
Задать новый вопрос
Задайте вопрос...
…и сразу получите ответ в Поиске с Алисой
Войдите, чтобы поставить лайк
С Яндекс ID это займёт пару секунд
Войти