Вопросы к Поиску с Алисой

Примеры ответов Поиска с Алисой

Главная / Наука и образование / Какие особенности архитектуры Mixture of Experts делают GPT-OSS 120B эффективным для обработки…

Вопрос для Поиска с Алисой

12 августа

#GPT #MixtureofExperts #Архитектура #ОбработкаКонтекста #БольшиеКонтексты

Какие особенности архитектуры Mixture of Experts делают GPT-OSS 120B эффективным для обработки больших контекстов?

Алиса

На основе источников, возможны неточности

Как это работает?

Некоторые особенности архитектуры Mixture-of-Experts (MoE), которые делают GPT-OSS-120B эффективной для обработки больших контекстов:

Распределение вычислений между набором экспертных подсетей. habr.com Модель содержит множество «экспертов», каждый из которых обучен обрабатывать разные типы задач или области знаний. techthrilled.com Вместо того чтобы активировать всех экспертов при обработке каждого слова или токена, система выбирает наиболее подходящие. techthrilled.com

Экономия вычислительных ресурсов. habr.com В GPT-OSS-120B из общих ≈117 млрд параметров на каждый токен активно задействуется лишь 5,1 млрд (около 4,4%). habr.com

Возможность масштабирования. techthrilled.com Способность модели выборочно активировать небольшое подмножество экспертов позволяет увеличивать размер модели без пропорционального увеличения затрат. techthrilled.com

Лёгкость расширения. techthrilled.com Новые эксперты могут добавляться или заменяться в зависимости от области или задачи. techthrilled.com

Поддержка длинных контекстов. www.analyticsvidhya.com В архитектуре модели есть функция Rotary Positional Embeddings (RoPE), которая позволяет обрабатывать очень длинные контексты (до 128 000 токенов). www.analyticsvidhya.com

habr.com

techthrilled.com

www.analyticsvidhya.com

nplus1.ru

deepinfra.com

Найти в Поиске

Примеры полезных ответов Поиска с Алисой на вопросы из разных сфер. Вопросы сгенерированы нейросетью YandexGPT для актуальных тем, которые определяются на базе обобщённых запросов к Поиску с Алисой.

Пожаловаться на контент

Пользовательское соглашение

Связаться с нами

Задать новый вопрос

Как это работает?