Недостатки функций активации Sigmoid, Tanh и ReLU:
- Sigmoid:
- Исчезающий градиент. 4 В областях, где |x| очень велик, производная функции становится очень мала, что приводит к исчезающему градиенту и замедляет обучение. 4
- Нецентрированный вывод. 4 Выходы сигмоиды не центрированы вокруг нуля, что может привести к смещению весов в нейронной сети. 4
- Вычислительная затратность. 4 Из-за экспоненциальной операции в формуле сигмоидная функция требует больше вычислительных ресурсов. 4
- Tanh:
- Высокая трудоёмкость с точки зрения вычислений. 2 Включает экспоненциальные значения, которые могут быть медленными в больших сетях. 2
- Исчезновение градиента. 2 Может возникать в глубоких сетях. 2
- ReLU:
- Проблема «умирающего ReLU». 8 Когда взвешенная сумма входов меньше нуля, производная функции равна нулю. 7 В таком случае нейрон не обучается и не передаёт градиент ошибки на предшествующие слои нейронной сети. 7
Некоторые улучшенные функции активации:
- Leaky ReLU. 16 Имеет небольшой наклон в левой полуплоскости, что позволяет при отрицательных входных данных градиент не быть нулевым. 1
- ELU. 12 Функция похожа на leaky ReLU, но включает в себя экспоненту, что делает её вычисление дороже. 1 Её стоит использовать в тех случаях, когда важна устойчивость к шумовым данным. 1
- Maxout. 1 Выбирает максимальную сумму из двух наборов весов, умноженных на исходные данные с учётом смещения. 1 Тем самым он обобщает ReLU и leaky ReLU, не обнуляя градиент. 1
Важно помнить, что нет универсальной функции активации, которая была бы лучше всех во всех сценариях. 4 Выбор всегда зависит от конкретной задачи и данных. 4