Вопросы к Поиску с Алисой
Стохастический градиентный спуск проигрывает обычному (пакетному) в случае, если целевая функция не выпуклая или псевдовыпуклая. ru.wikipedia.org ru.ruwiki.ru В этом случае метод сходится почти наверняка к локальному минимуму. ru.wikipedia.org ru.ruwiki.ru
Однако в целом стохастический градиентный спуск может быть эффективнее обычного в приложениях, связанных с обработкой больших данных. ru.wikipedia.org Он сокращает задействованные вычислительные ресурсы и помогает достичь более высокой скорости итераций в обмен на более низкую скорость сходимости. ru.wikipedia.org
Также метод привносит «шум» в процесс обучения, что иногда позволяет избежать локальных экстремумов. habr.com
Таким образом, выбор между стохастическим и обычным градиентным спуском зависит от конкретной задачи и условий её решения.