Обучение линейного классификатора с учётом переобучения включает несколько этапов: 2
- Начало с заданного набора размеченных примеров. 2 Данные случайным образом разбивают на обучающий, валидационный и тестовый наборы. 2 Размер каждого из этих множеств может быть выбран различным в зависимости от ситуации. 2
- Приписывание примеров подходящим признакам. 2 Выбор признаков существенно влияет на результаты обучения и определяется априорной информацией о задаче. 2
- Обучение алгоритма на обучающей выборке. 2 Часто оно сводится к решению оптимизационной задачи минимизации эмпирического риска, то есть средних потерь. 2
- Настройка гиперпараметров. 2 Фиксируют параметры, для которых алгоритм показывает наилучшее качество предсказаний на валидационной выборке. 2
- Использование настроенного алгоритма для предсказания меток тестового набора. 2 Качество алгоритма оценивается с помощью функции, ассоциированной с задачей. 2
Переобучение возникает, когда параметров слишком много либо не хватает регуляризации. 4 В таком случае алгоритм может «отвлекаться» на шум в данных и упускать основной тренд. 4
Чтобы избежать переобучения, можно использовать, например, кривые обучения (learning curves). 4 Они позволяют отобразить ошибку как функцию от количества примеров, используемых для обучения, при этом параметры модели фиксируются заранее. 4