Также мы используем для оценки качества визуально-лингвистическую модель (VLM), которая отсматривает сгенерированные изображения и проверяет, правда ли на картинке присутствуют все элементы, указанные в запросе.
По результатам внутренних измерений, YandexART 2.5 лучше предыдущей версии, а по эстетике и комплексности выигрывает у текущих версий моделей — лидеров рынка.
Аспект | Yandex ART 2.0 |
Ideogram | Recraft | Google Imagen3 |
FLUX | SBER Kandi3.1 |
|||
---|---|---|---|---|---|---|---|---|---|
Релевантность | 0,59 | 0,58 | 0,63 | 0,45 | 0,51 | 0,50 | 0,50 | 0,54 | 0,75 |
Эстетика | 0,49 | 0,55 | 0,55 | 0,51 | 0,51 | 0,61 | 0,61 | 0,54 | 0,59 |
Комплексность | 0,44 | 0,73 | 0,70 | 0,68 | 0,76 | 0,75 | 0,75 | 0,71 | 0,74 |
Дефектность | 0,69 | 0,57 | 0,68 | 0,55 | 0,59 | 0,63 | 0,63 | 0,50 | 0,75 |
Предпочтение | 0,66 | 0,60 | 0,69 | 0,49 | 0,54 | 0,63 | 0,63 | 0,51 | 0,84 |