Паралич сети — это явление, при котором глубокие слои не обучаются. 1 Это происходит из-за затухания градиента при обратном распространении ошибки. 1 Затухание градиента может возникнуть из-за большой глубины сети или больших выходных значений. 1
Чтобы избежать паралича сети, можно попробовать следующее:
- Сменить функцию активации. 1 Например, можно попробовать сменить функцию активации на ReLU, у которой в положительной части оси производная всегда равна единице. 1
- Нормализовать данные. 1 Например, можно использовать batch normalization. 1 В этом случае выходные значения будут реже выходить на плато функции активации, что позволит реже умножать градиент на нулевые значения. 1
- Модифицировать архитектуру сети. 1 Например, в GoogLeNet использовали дополнительные функции потерь у глубоких слоёв, тем самым обучая их той же самой задаче. 1 Это подпитывало обновление весов на глубоких слоях сети. 1
- Использовать сокращение весов. 25 Этот метод предотвращает паралич сети и повышает устойчивость весов, способствуя повышению обобщающей способности алгоритма и снижению риска переобучения. 5