Проблема исчезающего градиента особенно важна при использовании сигмоидальной функции, потому что она приводит к медленному или заторможенному обучению, особенно в глубоких сетях. 1
Причина проблемы — в свойствах производной сигмоидальной функции. 2 Она крайне мала во всех точках, кроме сравнительно небольшого промежутка. 5 За пределами этого диапазона функция становится более плоской, что приводит к очень маленьким градиентам. 2
В процессе обратного распространения эти малые градиенты могут умножаться на множество слоёв. 4 Это приводит к исчезновению градиентов предыдущих слоёв, что эффективно останавливает обучение. 4
Из-за этой проблемы сигмоидальная функция в современных архитектурах глубокого обучения часто заменяется другими функциями активации, например ReLU. 14