Вопросы к Поиску с Алисой
Основное отличие multiplicative attention от additive в алгоритмах машинного обучения заключается в способе вычисления весов внимания. aiwiki.ai
Additive attention вычисляет веса внимания, применяя обученную матрицу весов к пересечению текущего ввода и контекстного вектора, который суммирует предыдущие состояния модели. aiwiki.ai
Multiplicative attention, в свою очередь, предполагает взятие скалярного произведения текущего ввода и обученной матрицы весов, представляющей контекстный вектор в качестве веса внимания. aiwiki.ai
Кроме того, multiplicative attention считается быстрее и более эффективным с точки зрения использования пространства, так как его можно реализовать с помощью оптимизированного кода умножения матриц. www.analyticsvidhya.com www.ruder.io
При этом для небольших размеров состояний декодера оба варианта работают примерно одинаково, но additive attention лучше справляется с большими размерами. www.ruder.io