Проблему дисбаланса классов данных важно учитывать в областях, где используются алгоритмы машинного обучения, в частности в задачах классификации. 12
Некоторые области, в которых важно решать проблему дисбаланса:
- Обнаружение мошеннических операций. 1 Например, в банковских данных количество нормальных транзакций может быть гораздо больше, чем количество мошеннических. 1 Если не учитывать дисбаланс, модель будет смещаться в сторону более представленного класса и не сможет верно классифицировать объекты меньшего класса. 1
- Обнаружение редких заболеваний. 3 В некоторых областях сбор данных о классе-меньшинстве может быть затруднён. 3
- Работа с кредитными картами. 3 Обычные транзакции будут составлять большую часть данных, в то время как мошеннические операции будут редкими. 3 Если не бороться с дисбалансом, модель будет склонна к смещению в сторону более представленного класса и это может привести к плохим результатам в реальном мире. 3
Дисбаланс классов может возникать по разным причинам, например, из-за реального распределения классов, сложностей сбора данных или неправильной выборки. 3