Классный дисбаланс считается значительной проблемой в машинном обучении по нескольким причинам:
- Смещение в предсказаниях. 15 Модели, обученные на несбалансированных наборах данных, часто достигают высокой точности, но в большинстве случаев предсказывают класс, который представлен чаще всего. 1
- Плохая производительность для меньшинства. 14 Критические сведения, связанные с меньшинством, могут быть потеряны, что приводит к неэффективному принятию решений, например в диагностике заболеваний или обнаружении мошенничества. 1
- Переобучение. 1 Если не обрабатывать проблему должным образом, алгоритмы могут переобучиться классу, который представлен чаще всего. 1
- Ложные метрики. 25 В несбалансированных наборах данных метрики производительности могут быть обманчивыми. 2 Например, модель с высокой точностью может предсказывать только один класс, не учитывая другой. 2
Классный дисбаланс — распространённая проблема в различных областях, включая медицинскую диагностику, обнаружение мошенничества и классификацию изображений. 1