При разбиении датасета на обучающую и тестовую выборки при «перекосе» количества элементов классов стоит придерживаться следующих принципов:
- Использовать стратифицированное разделение. 2 Оно гарантирует, что в каждой из выборок будет представлено одинаковое соотношение классов. 2 Для этого нужно указать в функции разделения параметр stratify. 2
- Перемешать данные. 3 По умолчанию функция traintestsplit библиотеки Scikit-learn автоматически перемешивает данные, но это можно переопределить, установив для параметра shuffle значение False. 3
- Учитывать пропорции классов. 1 При стратифицированной перекрёстной проверке данные разбивают таким образом, чтобы пропорции классов в каждом блоке в точности соответствовали пропорциям классов в наборе данных. 1