Stable Diffusion — нейросеть, которая генерирует изображения по текстовому запросу. 1 В основе её работы лежит техника латентной диффузии: система находит знакомые формы среди большого пула изображений, а затем фокусируется на них при совпадении с запросом. 1
Процесс работы: 3
- Обучение. 1 Нейросеть запоминает картинку при обучении, фиксирует происходящее на ней через простой код — как мозаику из множества мелких кусочков (это называется латентное пространство). 3
- Диффузия. 3 Stable Diffusion добавляет к изображению шум, делая его всё более расплывчатым, пока оно не превратится практически в случайный набор пикселей. 3 Так ИИ анализирует структуру изображения. 3
- Восстановление картинки. 3 Благодаря обучению на огромном количестве примеров, модель может из «шума» восстановить картинку. 3
- Генерация нового изображения. 3 Генерируя новое изображение с нуля, нейросеть постепенно добавляет к нему детали и «отматывает» шум в обратном направлении (это обратная диффузия). 3
Исходными данными для генерации картинки является текстовый промпт — запрос, который описывает словами желаемое содержание и стиль изображения. 4 Он может состоять из разных элементов, таких как объекты, атрибуты, отрицания и т. д.. 4