Разница между избыточной и недостаточной выборкой при работе с дисбалансом классов заключается в том, как они влияют на распределение данных:
- Избыточная выборка добавляет больше примеров из класса меньшинства, дублируя случайные записи этого класса. 1 Однако такой подход может привести к переобучению модели. 14
- Недостаточная выборка удаляет образцы из класса большинства, пока распределение классов не будет сбалансировано. 12 Этот метод имеет преимущества при работе с большими наборами данных, но есть риск потерять важную информацию в процессе удаления. 1
Таким образом, избыточная выборка направлена на расширение класса меньшинства, а недостаточная — на сокращение класса большинства.