Механизм генерации изображений нейросетью YandexART работает методом каскадной диффузии. 2 Сначала нейросеть генерирует картинки в соответствии с запросом пользователя, а затем поэтапно увеличивает их разрешение, насыщая деталями. 2
Процесс включает два этапа: 4
- Генерация картинки 64×64 пикселя на основе промта (запроса). 4 Для этого применяется модель GEN64, которая следует архитектуре U‑Net и обуславливается на текстовый ввод через механизм Cross‑Attention. 4
- Увеличение картинки до разрешения 256×256 с помощью модели SR256. 4 При увеличении учитывается текст от пользователя — можно на его основе дорисовать детали, что‑то улучшить, исправить ошибки первой генерации. 4
Для обучения нейросети использовали 330 миллионов картинок, поэтому она способна различать культурные контексты и другие нюансы. 1