Multi-Head Latent Attention (MLA) решает проблемы масштабируемости в крупных языковых моделях (LLM) следующим образом: уменьшает объём используемой памяти, что снижает временную сложность и, в конечном итоге, задержку. 1
Основная идея MLA заключается в совместном сжатии ключа и значения с низким рангом для уменьшения кэша KV. 1 Например, размерность вектора уменьшают с 4096 до 1024, что позволяет эффективно хранить кэш KV в этой размерности, в то время как другие слои используют исходную размерность модели. 1
Также для решения проблемы масштабирования в MLA значения на каждой позиции преобразовывают двухслойным перцептроном с особой структурой. 4 После применения многоголового внимания значения проецируют на высокую размерность с помощью обучаемых весов, затем преобразуют нелинейной функцией активации ReLU, после чего проецируют в исходную размерность, за которой следует очередная нормализация. 4