Функция активации ReLU помогает в решении проблемы исчезающего градиента следующим образом: для положительных входов она поддерживает постоянный градиент, равный 1, что позволяет улучшить градиентный поток в более глубоких сетях. 4
В отличие от сигмоида и Tanh, градиент ReLU не сходится к нулю при больших положительных значениях, что помогает ускорить обучение глубоких нейронных сетей. 2