Генератор изображений по описанию работает следующим образом:
1. Текстовый запрос кодируется с помощью текстового кодировщика. neerc.ifmo.ru Он позволяет получить векторное представление слов. neerc.ifmo.ru
2. Далее применяется один из алгоритмов генерации: dzen.ru
- Generative Adversarial Networks (GAN). dzen.ru Создаются две нейросети: генератор и дискриминатор. dzen.ru Генератор получает текстовое описание и генерирует изображение, а дискриминатор определяет, насколько это изображение реалистично. dzen.ru Если дискриминатор не может отличить сгенерированное изображение от реального, то генератор считается успешным. dzen.ru
- StackGAN. dzen.ru Позволяет генерировать изображения с более высоким разрешением. dzen.ru StackGAN использует два этапа генерации изображений: первый этап генерирует грубые эскизы, а второй этап уточняет детали. dzen.ru
- DCGAN (Deep Convolutional Generative Adversarial Networks). dzen.ru Способен генерировать изображения без текстового описания. dzen.ru DCGAN использует нейросеть, состоящую из свёрточных слоёв, которая обучается на большом наборе изображений. dzen.ru Затем DCGAN может генерировать новые изображения, используя скрытые параметры, обученные на реальных изображениях. dzen.ru
3. Нейросеть берёт полученный числовой вектор как стартовые веса и создаёт изображение, отталкиваясь от них. thecode.media
Некоторые генераторы также работают с антипромтами — описанием того, чего не должно быть на генерируемом изображении. thecode.media