Физическая симуляция в современных системах машинного обучения для видеогенерации работает с помощью фундаментальных моделей мира (World Foundation Models, WFM). 4 Эти модели разработаны для симуляции виртуальных сред, которые точно имитируют физический мир. 4
Процесс работы включает несколько этапов: 5
- Токенизация и обработка скрытого пространства. 5 Входное видео кодируется и преобразуется в набор скрытых токенов. 5 Затем эти токены искажаются гауссовым шумом, в результате чего частично деградируют. 5
- Этап 3D-исправления. 5 Токены обрабатываются в неперекрывающиеся 3D-кубы, которые служат входными данными для сети transformer. 5
- Применение шумоподавляющей сети на основе трансформатора. 5 Модель применяет несколько блоков: внимание к себе (для внутрикадровых и межкадровых отношений), перекрёстное внимание (к условию при вводе текста), слои MLP с прямой связью (для улучшения процесса шумоподавления). 5
- Применение само-внимания. 5 Это помогает модели понимать взаимосвязи между различными видеозаписями (как внутри кадров, так и между кадрами). 5 Это гарантирует, что объекты и движение остаются неизменными во времени. 5
- Применение перекрёстного привлечения внимания. 5 Слои перекрёстного внимания интегрируют текстовые вложения в виде ключей и значений. 5 Это позволяет модели согласовывать сгенерированное видео с текстовым описанием, обеспечивая семантическую релевантность. 5
Один из примеров системы, где используется такой подход, — NVIDIA Cosmos. 14 Платформа обучается понимать физический мир через анализ видеоданных. 1 В основе лежит массивный датасет из видеозаписей, содержащих различные физические взаимодействия: от простых движений человека до сложных манипуляций с объектами. 1