Если объём данных слишком велик для одновременной обработки в ОЗУ, более эффективным может быть один из следующих методов градиентного спуска:
- Мини-пакетный градиентный спуск. 14 На каждом шаге вычисление градиентов происходит на небольших случайных поднаборах (мини-пакетах). 1 Обычно размер мини-пакета может достигать нескольких десятков тысяч образцов, выбор размера зависит от особенностей задачи и применяемой модели. 1
- Стохастический градиентный спуск. 14 На каждом шаге из обучающего набора берётся лишь один образец. 1 Этот вариант работает быстрее, чем пакетный градиентный спуск, но может привести к большему количеству шума при обновлениях. 4
Выбор метода зависит от конкретных условий задачи.