Вопросы к Поиску с Алисой
Возможно, имелась в виду архитектура Multi-Head Latent Attention (MLA) в больших языковых моделях. habr.com Это стратегия сокращения памяти, которая эффективно работает с KV-кешированием. habr.com
Принцип работы: перед сохранением в KV-кэш тензоры ключей и значений сжимаются в пространство меньшей размерности. habr.com Во время инференса (использования) эти сжатые тензоры обратно проецируются в исходное пространство. habr.com Это добавляет одну дополнительную матричную операцию, но позволяет существенно снизить объём используемой памяти. habr.com
Ещё один аспект работы: query-компоненты также подвергаются сжатию, но только во время обучения, а не во время инференса. habr.com
Multi-head attention (многоголовое внимание) — расширение механизма self-attention, которое позволяет модели захватывать разнообразную контекстную информацию. ru.wikipedia.org Это происходит за счёт параллельного выполнения нескольких операций self-attention, каждая из которых имеет собственные обученные преобразования запросов, ключей и значений. ru.wikipedia.org
Количество голов внимания варьируется в зависимости от конкретной модели: например, GPT-2 содержит 16 голов внимания, крупнейшая версия GPT-3 использует 96 голов, а GPT-4, по некоторым данным, включает приблизительно 120 голов внимания. ru.wikipedia.org