Метод перекрёстной проверки для оценки обобщающей способности модели заключается в разбиении известного набора данных для использования одной части для обучения алгоритма, а другой — для тестирования. hub.exponenta.ru
Каждый цикл кросс-валидации включает случайное разбиение исходного набора данных на обучающий и тестовый наборы. hub.exponenta.ru Обучающий набор используется для обучения алгоритма, а тестирующий набор — для оценки его эффективности. hub.exponenta.ru Этот процесс повторяется несколько раз, а в качестве показателя эффективности обучения используется средняя ошибка кросс-валидации. hub.exponenta.ru
Некоторые методы перекрёстной проверки:
- K-кратная кросс-валидация (k-fold). hub.exponenta.ru Данные разбиваются на k случайно выбранных подмножеств (или наборов) примерно одинакового размера. hub.exponenta.ru Одно подмножество используется для тестирования модели, обученной на остальных наборах данных. hub.exponenta.ru Этот процесс повторяется k раз, так что каждое подмножество используется для проверки ровно один раз. hub.exponenta.ru
- Метод удержания (Holdout). hub.exponenta.ru Данные разбиваются случайным образом на два подмножества с заданным соотношением для обучения и тестирования (тестовый набор «удерживается» от обучения). hub.exponenta.ru Этот метод выполняет обучение и тестирование только один раз, что сокращает время выполнения на больших наборах данных. hub.exponenta.ru
- Перекрёстная проверка с исключением одного (LOOCV). codelabsacademy.com В этом методе одна точка данных сохраняется в качестве набора проверки, а остальные данные используются для обучения. codelabsacademy.com Этот процесс повторяется для каждой точки данных, что приводит к n итераций (где n — количество точек данных). codelabsacademy.com
Перекрёстная проверка помогает понять, насколько хорошо модель работает на невидимых данных, и предоставляет надёжные оценки того, как модель будет работать на независимых наборах данных. codelabsacademy.com