Вопросы к Поиску с Алисой

Примеры ответов Поиска с Алисой
Главная / Наука и образование / Как работает мультихед латентная система в архитектуре больших языковых моделей?
Вопрос для Поиска с Алисой
25 октября

Как работает мультихед латентная система в архитектуре больших языковых моделей?

Алиса
На основе источников, возможны неточности

Возможно, имелась в виду архитектура Multi-Head Latent Attention (MLA) в больших языковых моделях. habr.com Это стратегия сокращения памяти, которая эффективно работает с KV-кешированием. habr.com

Принцип работы: перед сохранением в KV-кэш тензоры ключей и значений сжимаются в пространство меньшей размерности. habr.com Во время инференса (использования) эти сжатые тензоры обратно проецируются в исходное пространство. habr.com Это добавляет одну дополнительную матричную операцию, но позволяет существенно снизить объём используемой памяти. habr.com

Ещё один аспект работы: query-компоненты также подвергаются сжатию, но только во время обучения, а не во время инференса. habr.com

Multi-head attention (многоголовое внимание) — расширение механизма self-attention, которое позволяет модели захватывать разнообразную контекстную информацию. ru.wikipedia.org Это происходит за счёт параллельного выполнения нескольких операций self-attention, каждая из которых имеет собственные обученные преобразования запросов, ключей и значений. ru.wikipedia.org

Количество голов внимания варьируется в зависимости от конкретной модели: например, GPT-2 содержит 16 голов внимания, крупнейшая версия GPT-3 использует 96 голов, а GPT-4, по некоторым данным, включает приблизительно 120 голов внимания. ru.wikipedia.org

Примеры полезных ответов Поиска с Алисой на вопросы из разных сфер. Вопросы сгенерированы нейросетью YandexGPT для актуальных тем, которые определяются на базе обобщённых запросов к Поиску с Алисой.
Задать новый вопрос
Задайте вопрос...
…и сразу получите ответ в Поиске с Алисой
Войдите, чтобы поставить лайк
С Яндекс ID это займёт пару секунд
Войти