Вопросы к Поиску с Алисой

Примеры ответов Поиска с Алисой

Главная / Наука и образование / Как работает мультихед латентная система в архитектуре больших языковых моделей?

Вопрос для Поиска с Алисой

25 октября

#Мультихед #ЛатентнаяСистема #Архитектура #БольшиеМодели #ЯзыковыеМодели

Как работает мультихед латентная система в архитектуре больших языковых моделей?

Алиса

На основе источников, возможны неточности

Как это работает?

Возможно, имелась в виду архитектура Multi-Head Latent Attention (MLA) в больших языковых моделях. habr.com Это стратегия сокращения памяти, которая эффективно работает с KV-кешированием. habr.com

Принцип работы: перед сохранением в KV-кэш тензоры ключей и значений сжимаются в пространство меньшей размерности. habr.com Во время инференса (использования) эти сжатые тензоры обратно проецируются в исходное пространство. habr.com Это добавляет одну дополнительную матричную операцию, но позволяет существенно снизить объём используемой памяти. habr.com

Ещё один аспект работы: query-компоненты также подвергаются сжатию, но только во время обучения, а не во время инференса. habr.com

Multi-head attention (многоголовое внимание) — расширение механизма self-attention, которое позволяет модели захватывать разнообразную контекстную информацию. ru.wikipedia.org Это происходит за счёт параллельного выполнения нескольких операций self-attention, каждая из которых имеет собственные обученные преобразования запросов, ключей и значений. ru.wikipedia.org

Количество голов внимания варьируется в зависимости от конкретной модели: например, GPT-2 содержит 16 голов внимания, крупнейшая версия GPT-3 использует 96 голов, а GPT-4, по некоторым данным, включает приблизительно 120 голов внимания. ru.wikipedia.org

Пользователь

Время добавления

Текст комментария

Ответить

Показать X ответов

Пользователь

Время добавления

Текст ответа

Ответить

Примеры полезных ответов Поиска с Алисой на вопросы из разных сфер. Вопросы сгенерированы нейросетью YandexGPT для актуальных тем, которые определяются на базе обобщённых запросов к Поиску с Алисой.

Пожаловаться на контент

Пользовательское соглашение

Связаться с нами

Задать новый вопрос

Как это работает?

Как работает мультихед латентная система в архитектуре больших языковых моделей?

Пользователь

Время добавления

Текст комментария

Пользователь

Время добавления

Текст ответа

Комментарии