Некоторые особенности архитектуры Mixture-of-Experts (MoE), которые делают GPT-OSS-120B эффективной для обработки больших контекстов:
Распределение вычислений между набором экспертных подсетей. habr.com Модель содержит множество «экспертов», каждый из которых обучен обрабатывать разные типы задач или области знаний. techthrilled.com Вместо того чтобы активировать всех экспертов при обработке каждого слова или токена, система выбирает наиболее подходящие. techthrilled.com
Экономия вычислительных ресурсов. habr.com В GPT-OSS-120B из общих ≈117 млрд параметров на каждый токен активно задействуется лишь 5,1 млрд (около 4,4%). habr.com
Возможность масштабирования. techthrilled.com Способность модели выборочно активировать небольшое подмножество экспертов позволяет увеличивать размер модели без пропорционального увеличения затрат. techthrilled.com
Поддержка длинных контекстов. www.analyticsvidhya.com В архитектуре модели есть функция Rotary Positional Embeddings (RoPE), которая позволяет обрабатывать очень длинные контексты (до 128 000 токенов). www.analyticsvidhya.com
Примеры полезных ответов Поиска с Алисой на вопросы из разных сфер. Вопросы сгенерированы нейросетью YandexGPT для актуальных тем, которые определяются на базе обобщённых запросов к Поиску с Алисой.