Генеративно-состязательная сеть в Midjourney работает следующим образом: 14
- Пользователь вводит текстовые подсказки. 3 Сначала они обрабатываются языковой моделью, которая помогает Midjourney понять значение каждого слова. 3 Позже это сопоставляется с известными векторами (например, числовая версия приглашения). 3
- Генератор изображений использует этот вектор в качестве входных данных. 1 Он создаёт первоначальный эскиз идеи с низким разрешением. 1
- Запускается процесс обработки изображения. 1 В нём конкурируют две сети (генератор и дискриминатор): 1
- Генератор начинает со случайного шума и пытается создать «фальшивые» данные, которые выглядят реальными. 1 Он учится, адаптируясь к обратной связи от дискриминатора. 1
- Дискриминатор решает, являются ли данные реальными или «фальшивыми». 1 Он становится лучше по мере улучшения генератора. 1
- Вместе эти методы повторяются миллионы раз, постепенно улучшая изображение до тех пор, пока оно не станет близко представлять «смысл», закодированный языковой моделью. 1
Midjourney обучается на большом наборе данных, состоящем из пар текстовых описаний и соответствующих им изображений. 2 Чем больше данных используется для обучения, тем лучше будет качество создаваемых изображений. 2