Принцип перекрёстной проверки статистических моделей заключается в случайном разбиении известного набора данных на обучающий и тестовый наборы. 1 Обучающий набор используется для обучения алгоритма, а тестирующий — для оценки его эффективности. 1 Этот процесс повторяется несколько раз, а в качестве показателя эффективности обучения используется средняя ошибка кросс-валидации. 1
Перекрёстная проверка не просто измеряет точность модели, но и даёт представление о том, насколько репрезентативен набор данных и насколько чувствительна может быть модель к отклонениям в данных. 2
Некоторые методы перекрёстной проверки:
- K-кратная кросс-валидация (k-fold). 1 Данные разбиваются на k случайно выбранных подмножеств (или наборов) примерно одинакового размера. 1 Одно подмножество используется для тестирования модели, обученной на остальных наборах данных. 1 Этот процесс повторяется k раз, так что каждое подмножество используется для проверки ровно один раз. 1
- Метод удержания (Holdout). 1 Данные разбиваются случайным образом на два подмножества с заданным соотношением для обучения и тестирования (тестовый набор «удерживается» от обучения). 1 Этот метод выполняет обучение и тестирование только один раз, что сокращает время выполнения на больших наборах данных. 1