Градиентный спуск может преждевременно выходить на локальный минимум по нескольким причинам:
- Сложность поверхности ошибки. vc.ru В современных нейронных сетях, содержащих миллиарды параметров, поверхность ошибки становится чрезвычайно сложной: с горами, долинами, седловыми точками и плато. vc.ru Такая структура делает процесс оптимизации непредсказуемым. vc.ru
- Слишком маленький шаг. vc.ru Если шаг слишком мал, обучение становится медленным, а градиентный спуск может «застрять» на плато, где изменения функции потерь минимальны. vc.ru
- Постоянная скорость обучения. dzen.ru Некоторые переменные могут привести к более быстрой сходимости, чем другие. dzen.ru Использование постоянной скорости обучения на протяжении всего процесса обучения может заставить эти переменные оставаться синхронизированными, что приведёт к более медленной сходимости к оптимальному решению. dzen.ru
Чтобы избежать преждевременного выхода на локальный минимум, можно использовать, например, динамическое изменение скорости обучения (постепенное уменьшение по мере приближения к минимуму), циклическое повышение и понижение шага или оптимизаторы, которые подстраивают шаг индивидуально для каждого параметра. vc.ru