Технология MoE (Mixture of Experts) положительно влияет на скорость обучения ИИ-моделей. 23
Предварительная подготовка проходит значительно быстрее, чем при использовании плотных моделей. 2 Это связано с тем, что для каждой задачи активируются только соответствующие эксперты, что приводит к снижению использования вычислительных ресурсов. 2
Скорость вывода также выше, даже при эквивалентном количестве параметров. 2 Это объясняется тем, что хотя у модели MoE может быть много параметров, во время вывода используется только часть из них. 3
Например, с помощью системы DeepSpeed-MoE от Microsoft вывод для моделей MoE происходит до 4,5 раз быстрее и на 90% дешевле, чем для плотных моделей с таким же качеством. 4