Некоторые методы, которые используются для моделирования диффузионных процессов в генерации изображений:
Модель стабильной диффузии (Stable Diffusion). 1 Модель предназначена для создания высококачественных реалистичных изображений путём многократного обновления значений пикселей с помощью процесса диффузии. 1 Она начинается со случайного шумового изображения и постепенно добавляет гауссов шум в течение нескольких временных шагов. 1 Затем применяется процесс обратной диффузии, при котором шум удаляется шаг за шагом, прогнозируя значения пикселей на основе шума предыдущего временного шага. 1 После нескольких шагов шумоподавления появляется окончательное изображение, соответствующее текстовому описанию, представленному рядом с шумовым изображением. 1
Диффузионно-трансформерная модель (DiT). 2 За основу DiT взят Vision Transformer (ViT), который хорошо зарекомендовал себя в задачах, связанных с CV, особенно в задачах классификации изображений. 2 ViT работает с последовательностью патчей — областей заданного размера, на которые разбивается исходное изображение. 2 Входные зашумлённые изображения разбиваются на патчи, а затем преобразуются в токены. 2 После блока трансформера последовательность токенов изображения преобразуется в выходной шум. 2
Также для моделирования диффузионных процессов в генерации изображений могут применяться стохастические дифференциальные уравнения (SDE), score matching и вариационные автоэнкодеры (VAE). 4