Вопросы к Поиску с Алисой
Возможно, имелась в виду визуально-текстовая мультимодальная модель (Visual Language Model, VLM), которая использовалась при обучении YandexART 2.0. ict.moscow yandex.cloud
VLM одновременно работает с визуальными и текстовыми данными. yandex.cloud Модель анализирует изображения и детально описывает, что на них находится. yandex.ru yandex.cloud Для обучения YandexART 2.0 VLM «смотрела» на изображения из обучающего набора данных и генерировала для каждой картинки точные текстовые описания. yandex.cloud
В основу YandexART 2.0 легла гибридная архитектура, которая сочетает качество работы свёрточной и трансформерной нейросетей. yandex.ru yandex.cloud Свёрточная модель работает по принципу человеческого глаза и выявляет на картинке важные признаки — края, текстуры и формы. yandex.ru Трансформерная модель, наоборот, сразу анализирует всё изображение, поэтому лучше понимает общий смысл, но хуже учитывает детали. yandex.cloud Объединение двух этих моделей в YandexART 2.0 позволило ей точнее следовать текстовым запросам. yandex.ru
В марте 2025 года разработчики выпустили модели YandexART 2.5 и YandexART 2.5 Pro. ict.moscow По заявлениям создателей, модели этой линейки стали генерировать надписи на латинице на 30% лучше в сравнении с предыдущими версиями, и ближе следовать инструкциям в промптах. ict.moscow