Функция traintestsplit в библиотеке Scikit-Learn нужна для разделения набора данных на подмножества для беспристрастной оценки эффективности прогнозирования. 45
В большинстве случаев достаточно случайным образом разделить набор данных на три подмножества: 4
- Тренировочный набор применяется для обучения или подгонки модели. 4 Например, с его помощью находят оптимальные веса или коэффициенты для линейной регрессии, логистической регрессии или нейронных сетей. 4
- Набор проверки используется для беспристрастной оценки модели во время настройки гиперпараметров. 4 Например, когда нужно найти оптимальное количество нейронов в нейронной сети или лучшее ядро для метода опорных векторов, экспериментируют с разными значениями. 4 Для каждой рассматриваемой настройки гиперпараметров модель подгоняют к обучающему набору и оценивают её производительность с помощью проверочного набора. 4
- Набор тестов необходим для объективной оценки окончательной модели. 4 Его не следует использовать для подгонки или проверки. 4
Также разделение набора данных с помощью traintestsplit помогает определить, страдает ли модель распространёнными проблемами недообучением или переобучением. 4