Недостатки функций активации Sigmoid, Tanh и ReLU:
- Sigmoid:
- Исчезающий градиент. yourtodo.ru В областях, где |x| очень велик, производная функции становится очень мала, что приводит к исчезающему градиенту и замедляет обучение. yourtodo.ru
- Нецентрированный вывод. yourtodo.ru Выходы сигмоиды не центрированы вокруг нуля, что может привести к смещению весов в нейронной сети. yourtodo.ru
- Вычислительная затратность. yourtodo.ru Из-за экспоненциальной операции в формуле сигмоидная функция требует больше вычислительных ресурсов. yourtodo.ru
- Tanh:
- ReLU:
- Проблема «умирающего ReLU». {8-host} Когда взвешенная сумма входов меньше нуля, производная функции равна нулю. {7-host} В таком случае нейрон не обучается и не передаёт градиент ошибки на предшествующие слои нейронной сети. {7-host}
Некоторые улучшенные функции активации:
- Leaky ReLU. www.reg.ru {6-host} Имеет небольшой наклон в левой полуплоскости, что позволяет при отрицательных входных данных градиент не быть нулевым. www.reg.ru
- ELU. www.reg.ru www.analyticsvidhya.com Функция похожа на leaky ReLU, но включает в себя экспоненту, что делает её вычисление дороже. www.reg.ru Её стоит использовать в тех случаях, когда важна устойчивость к шумовым данным. www.reg.ru
- Maxout. www.reg.ru Выбирает максимальную сумму из двух наборов весов, умноженных на исходные данные с учётом смещения. www.reg.ru Тем самым он обобщает ReLU и leaky ReLU, не обнуляя градиент. www.reg.ru
Важно помнить, что нет универсальной функции активации, которая была бы лучше всех во всех сценариях. yourtodo.ru Выбор всегда зависит от конкретной задачи и данных. yourtodo.ru