Для описания градиентного шага для квадратичной функции потерь и сигмоидной функции активации можно воспользоваться следующим алгоритмом: 13
- Инициализировать параметры модели случайными значениями. 3
- Подать входные данные в модель и получить предсказания. 3
- Вычислить значение функции ошибки, сравнив предсказания с фактическими значениями. 3 Как именно — зависит от конкретной задачи. 3
- Определить градиент функции ошибки по каждому параметру модели. 3 Формула выбирается в зависимости от выбранной функции ошибки. 3
- Обновить значения параметров по формуле: новое значение параметра = старое значение параметра − learning rate * градиент. 3 Learning rate (скорость обучения) — это гиперпараметр, который контролирует скорость сходимости алгоритма градиентного спуска и определяет размер шага, с которым обновляются параметры модели. 3
- Повторить шаги 2–5 для каждого этапа прогонки обучения (эпохи) или до достижения критерия остановки. 3
Для сигмоидной функции активации градиент функционала можно расписать, воспользовавшись выражением для производной сигмоидной функции σ′ = σ(1 − σ): 1 ∂Q/∂w = − ℓ 1−σ w, xi yi yixi. 1
Тогда в методе стохастического градиента правило обновления весов при предъявлении прецедента xi, yi будет иметь вид: w := w + η 1 − σ w, xi yi yixi. 1