Midjourney использует диффузионные модели для преобразования случайного шума в визуально привлекательные изображения. 4
Процесс генерации начинается с начального тензора шума. 2 Затем, на основе пользовательского запроса (промпта), модель шаг за шагом превращает этот шум в конкретное изображение. 3
Например, если пользователь вводит текстовую подсказку, такую как «Майнинг биткоинов с яркими цветами и анимированным внешним видом», Midjourney начинается с поля визуального шума. 4 Посредством скрытого распространения обученная модель искусственного интеллекта систематически устраняет шум, постепенно раскрывая изображение, которое воплощает суть указанных объектов и тем в исходной подсказке. 4
Каждый раз, когда пользователь даёт модели один и тот же запрос, результаты могут немного отличаться. 3 Это происходит потому, что изначальное размытие всегда разное, и даже небольшие изменения в изначальном изображении могут привести к заметным различиям в конечной картинке. 3