Мультимодальная нейросеть Visual Language Model (VLM) в Алисе работает следующим образом: t.me
- Пользователь может загрузить изображение в чат или показать ассистенту что-то через камеру смартфона. t.me
- Когда Алиса получает изображение и запрос, последний отправляется в рефразер, который адаптирует вопрос для поиска в интернете. t.me Например, если пользователь показывает Алисе булгур и спрашивает «Сколько варить?», рефразер превращает вопрос в «сколько варить булгур». t.me
- Далее запрос отправляется в интернет. t.me Модель собирает всю нужную информацию и выдаёт пользователю ответ. t.me
Например, с помощью Live-режима, основанного на VLM, Алиса способна в реальном времени распознавать и описывать объекты, которые пользователь показывает через камеру смартфона. www.comss.ru