Мультимодальные большие языковые модели (MLLM) отличаются от традиционных больших языковых моделей (LLM) тем, что они могут работать с несколькими типами данных. 12 В то время как LLM, например GPT-3 или BERT, разработаны для работы исключительно с текстом. 1
Некоторые другие отличия:
- Обработка данных. 1 Мультимодальные модели могут исследовать изображение и приведённое пользователем текстовое описание к нему одновременно, обеспечивая более глубокое понимание контекста и точный анализ поступающей на вход информации. 1
- Взаимодействие между модальностями. 1 Традиционные LLM ограничены текстовой модальностью и могут работать только с линейными зависимостями внутри текстовых данных. 1 Мультимодальные модели включают несколько разноплановых модулей, которые могут быть отдельными частями одной сети или работать параллельно, интегрируя результаты для получения более полной картины. 1
- Вычислительная сложность. 1 Мультимодальные модели значительно более сложны в вычислительном плане, так как они работают с различными типами данных, каждый из которых требует своей архитектуры для обработки. 1
- Практическое применение. 5 LLM лучше всего подходят для взаимодействия с чат-ботами, написания контента и других функций разговорного ИИ, в то время как мультимодальные модели имеют преимущество в создании субтитров к видео, кросс-модальном поиске и интерактивном анализе мультимедийного контента. 5