Метод перекрёстной проверки (кросс-валидации) используется в машинном обучении для оценки эффективности алгоритма при составлении прогнозов на новых наборах данных, на которых он не обучался. 1
Суть метода: известный набор данных разделяют на несколько частей, одна из которых используется для обучения алгоритма, а другая — для тестирования. 14 Этот процесс повторяется несколько раз, каждый раз с новой обучающей и тестовой выборками. 2 В итоге получают несколько оценок качества модели, которые можно усреднить для более точной оценки. 3
Некоторые преимущества метода:
- Более надёжные оценки производительности. 5 Усредняя результаты по нескольким валидным наборам, кросс-валидация уменьшает дисперсию, связанную с единственным разделением тренировок и тестов. 5
- Эффективное использование данных. 5 Каждая точка данных служит как обучающими, так и проверочными данными для разных частей. 5
- Обнаружение избыточной или недостаточной подгонки. 5 Метод помогает выявить слишком сложные или слишком простые модели, обнаруживая несоответствие между результатами обучения и средними показателями проверки. 5
- Надёжная настройка гиперпараметров. 5 Различные наборы гиперпараметров можно оценивать на основе их средней кросс-валидированной производительности, что приведёт к созданию моделей с лучшей обобщённостью. 5
Некоторые методы кросс-валидации: k-кратная кросс-валидация, метод удержания, кросс-валидация по отдельным объектам и другие. 1