Физическая симуляция в современных системах машинного обучения для видеогенерации работает с помощью фундаментальных моделей мира (World Foundation Models, WFM). blog.ai-monster.ru Эти модели разработаны для симуляции виртуальных сред, которые точно имитируют физический мир. blog.ai-monster.ru
Процесс работы включает несколько этапов: www.analyticsvidhya.com
- Токенизация и обработка скрытого пространства. www.analyticsvidhya.com Входное видео кодируется и преобразуется в набор скрытых токенов. www.analyticsvidhya.com Затем эти токены искажаются гауссовым шумом, в результате чего частично деградируют. www.analyticsvidhya.com
- Этап 3D-исправления. www.analyticsvidhya.com Токены обрабатываются в неперекрывающиеся 3D-кубы, которые служат входными данными для сети transformer. www.analyticsvidhya.com
- Применение шумоподавляющей сети на основе трансформатора. www.analyticsvidhya.com Модель применяет несколько блоков: внимание к себе (для внутрикадровых и межкадровых отношений), перекрёстное внимание (к условию при вводе текста), слои MLP с прямой связью (для улучшения процесса шумоподавления). www.analyticsvidhya.com
- Применение само-внимания. www.analyticsvidhya.com Это помогает модели понимать взаимосвязи между различными видеозаписями (как внутри кадров, так и между кадрами). www.analyticsvidhya.com Это гарантирует, что объекты и движение остаются неизменными во времени. www.analyticsvidhya.com
- Применение перекрёстного привлечения внимания. www.analyticsvidhya.com Слои перекрёстного внимания интегрируют текстовые вложения в виде ключей и значений. www.analyticsvidhya.com Это позволяет модели согласовывать сгенерированное видео с текстовым описанием, обеспечивая семантическую релевантность. www.analyticsvidhya.com
Один из примеров системы, где используется такой подход, — NVIDIA Cosmos. habr.com blog.ai-monster.ru Платформа обучается понимать физический мир через анализ видеоданных. habr.com В основе лежит массивный датасет из видеозаписей, содержащих различные физические взаимодействия: от простых движений человека до сложных манипуляций с объектами. habr.com