Преимущества архитектуры DeepSeek Multi-head Latent Attention (MLA) заключаются в том, что модель извлекает ключевые детали из фрагмента текста несколько раз, а не только один. 1 Это означает, что искусственный интеллект с меньшей вероятностью упустит важную информацию. 1
Кроме того, благодаря MLA модель игнорирует до 95% ненужных данных и тем самым уменьшает стоимость обучения на 90%. 2