Некоторые основные проблемы, которые возникают при использовании обратного распространения в глубоких нейронных сетях:
- Проблема исчезающего градиента. 13 Градиенты становятся чрезвычайно малыми в глубоких сетях, что приводит к медленному или остановившемуся обучению на более ранних уровнях. 1
- Проблема взрывного градиента. 1 Веса становятся чрезмерно большими и дестабилизируют процесс обучения. 1
- Необходимость тщательной настройки гиперпараметров. 1 К ним относятся скорость обучения и размер партии, неправильная настройка может существенно повлиять на производительность. 1
- Переобучение. 14 Особенно актуально в сложных моделях с ограниченными данными. 1 Для борьбы с переобучением применяют методы регуляризации. 14
- Высокая вычислительная стоимость. 1 Это характерно для больших наборов данных и архитектур, что делает обратное распространение менее осуществимым для приложений реального времени. 1
- Локальные минимумы. 2 Сеть может попасть в локальный минимум, когда рядом имеется гораздо более глубокий минимум. 2 В точке локального минимума все направления ведут вверх, и сеть не способна из него выбраться. 2