Паралич сети — это явление, при котором глубокие слои не обучаются.                                                                          habr.com                       Это происходит из-за затухания градиента при обратном распространении ошибки.                                                                          habr.com                       Затухание градиента может возникнуть из-за большой глубины сети или больших выходных значений.                                                                          habr.com                      
 Чтобы избежать паралича сети, можно попробовать следующее:
  - Сменить функцию активации.                                                                          habr.com                       Например, можно попробовать сменить функцию активации на ReLU, у которой в положительной части оси производная всегда равна единице.                                                                          habr.com                      
- Нормализовать данные.                                                                          habr.com                       Например, можно использовать batch normalization.                                                                          habr.com                       В этом случае выходные значения будут реже выходить на плато функции активации, что позволит реже умножать градиент на нулевые значения.                                                                          habr.com                      
- Модифицировать архитектуру сети.                                                                          habr.com                       Например, в GoogLeNet использовали дополнительные функции потерь у глубоких слоёв, тем самым обучая их той же самой задаче.                                                                          habr.com                       Это подпитывало обновление весов на глубоких слоях сети.                                                                          habr.com                      
- Использовать сокращение весов.                                                                          www.machinelearning.ru                                                                                               www.ccas.ru                       Этот метод предотвращает паралич сети и повышает устойчивость весов, способствуя повышению обобщающей способности алгоритма и снижению риска переобучения.                                                                          www.ccas.ru