Стохастический градиентный спуск (SGD) может привести к более нестабильным результатам обучения, потому что каждый шаг алгоритма зависит от одного примера из набора данных, а не от всей информации. 2
Это делает путь к цели «дрожащим», так как каждый пример может немного менять направление. 2 Кроме того, SGD чувствителен к скорости обучения, и неправильный выбор этого параметра может сильно повлиять на результаты алгоритма. 3 Например, более высокая скорость обучения может привести к тому, что алгоритм выйдет за пределы глобальных минимумов, а более низкая — замедлить процесс сходимости. 3
Также в сложных функциях, которыми являются нейронные сети, величина градиентов может значительно различаться для разных параметров. 3 Это может привести к медленному схождению, так как параметры с небольшими градиентами могут обновляться очень медленно. 3