Функция traintestsplit в библиотеке Scikit-Learn нужна для разделения набора данных на подмножества для беспристрастной оценки эффективности прогнозирования. yandex.ru realpython.com
В большинстве случаев достаточно случайным образом разделить набор данных на три подмножества: yandex.ru
- Тренировочный набор применяется для обучения или подгонки модели. yandex.ru Например, с его помощью находят оптимальные веса или коэффициенты для линейной регрессии, логистической регрессии или нейронных сетей. yandex.ru
- Набор проверки используется для беспристрастной оценки модели во время настройки гиперпараметров. yandex.ru Например, когда нужно найти оптимальное количество нейронов в нейронной сети или лучшее ядро для метода опорных векторов, экспериментируют с разными значениями. yandex.ru Для каждой рассматриваемой настройки гиперпараметров модель подгоняют к обучающему набору и оценивают её производительность с помощью проверочного набора. yandex.ru
- Набор тестов необходим для объективной оценки окончательной модели. yandex.ru Его не следует использовать для подгонки или проверки. yandex.ru
Также разделение набора данных с помощью traintestsplit помогает определить, страдает ли модель распространёнными проблемами недообучением или переобучением. yandex.ru