Технология Mixture of Experts (MoE) в современных языковых моделях работает на основе принципа «разделяй и властвуй». 1 Вместо одной большой монолитной модели для обработки всех типов данных или задач используется множество небольших специализированных субмоделей, называемых «экспертами». 1
Архитектура MoE состоит из трёх основных компонентов: 2
- Эксперты. 2 Набор идентичных по структуре нейронных подсетей, каждая из которых специализируется на обработке определённых типов входных данных. 2 Например, в обработке естественного языка разные эксперты могут специализироваться на различных аспектах языка или доменах знаний. 1
- Маршрутизатор (router). 2 Нейронная сеть, которая определяет, какие эксперты должны обрабатывать конкретный входной пример. 2
- Механизм объединения. 2 Компонент, который комбинирует выходные данные активированных экспертов в окончательный результат. 2
Основной принцип работы заключается в интеллектуальной маршрутизации входных токенов к наиболее подходящим экспертам с помощью вентильной сети. 4 Процесс обычно включает несколько этапов: 4
- Вентильная сеть получает на вход токен и вычисляет для каждого эксперта оценку, указывающую на его релевантность для данного токена. 4
- На основе этих оценок выбирается подмножество экспертов для обработки токена. 4 Распространённой стратегией выбора является «top-k routing», при которой выбираются «k» экспертов с наивысшими оценками. 4
- После выбора эксперты независимо обрабатывают входной токен. 4
- Выходы активированных экспертов объединяются для получения окончательного выхода MoE-слоя. 4
Такой подход позволяет:
- Снизить вычислительную нагрузку по сравнению с плотными моделями аналогичного размера, где все параметры используются для каждого вычисления. 1
- Создать модели с большим количеством параметров без пропорционального увеличения вычислительных затрат на каждое умозаключение. 1
- Повысить общую точность модели и производительность при решении сложных задач по сравнению с одной плотной моделью. 1
MoE активно используется в современных языковых моделях, таких как Google's Switch Transformer и GLaM, Mixtral 8x7B от Mistral AI, Qwen3-235B-A22B от Alibaba Cloud и других. 2