Генератор изображений по описанию работает следующим образом:
1. Текстовый запрос кодируется с помощью текстового кодировщика. 5 Он позволяет получить векторное представление слов. 5
2. Далее применяется один из алгоритмов генерации: 1
- Generative Adversarial Networks (GAN). 1 Создаются две нейросети: генератор и дискриминатор. 1 Генератор получает текстовое описание и генерирует изображение, а дискриминатор определяет, насколько это изображение реалистично. 1 Если дискриминатор не может отличить сгенерированное изображение от реального, то генератор считается успешным. 1
- StackGAN. 1 Позволяет генерировать изображения с более высоким разрешением. 1 StackGAN использует два этапа генерации изображений: первый этап генерирует грубые эскизы, а второй этап уточняет детали. 1
- DCGAN (Deep Convolutional Generative Adversarial Networks). 1 Способен генерировать изображения без текстового описания. 1 DCGAN использует нейросеть, состоящую из свёрточных слоёв, которая обучается на большом наборе изображений. 1 Затем DCGAN может генерировать новые изображения, используя скрытые параметры, обученные на реальных изображениях. 1
3. Нейросеть берёт полученный числовой вектор как стартовые веса и создаёт изображение, отталкиваясь от них. 3
Некоторые генераторы также работают с антипромтами — описанием того, чего не должно быть на генерируемом изображении. 3