Паралич сети — это явление, при котором глубокие слои не обучаются. habr.com Это происходит из-за затухания градиента при обратном распространении ошибки. habr.com Затухание градиента может возникнуть из-за большой глубины сети или больших выходных значений. habr.com
Чтобы избежать паралича сети, можно попробовать следующее:
- Сменить функцию активации. habr.com Например, можно попробовать сменить функцию активации на ReLU, у которой в положительной части оси производная всегда равна единице. habr.com
- Нормализовать данные. habr.com Например, можно использовать batch normalization. habr.com В этом случае выходные значения будут реже выходить на плато функции активации, что позволит реже умножать градиент на нулевые значения. habr.com
- Модифицировать архитектуру сети. habr.com Например, в GoogLeNet использовали дополнительные функции потерь у глубоких слоёв, тем самым обучая их той же самой задаче. habr.com Это подпитывало обновление весов на глубоких слоях сети. habr.com
- Использовать сокращение весов. www.machinelearning.ru www.ccas.ru Этот метод предотвращает паралич сети и повышает устойчивость весов, способствуя повышению обобщающей способности алгоритма и снижению риска переобучения. www.ccas.ru