Проблема дисбаланса данных (несбалансированных датасетов) встречается в разных сферах, например:
- Медицина. 2 Неравномерное распределение данных может привести к ошибочным диагностическим предсказаниям. 2
- Финансовый сектор. 2 Здесь прогнозирующие модели используются для определения кредитоспособности, и балансировка данных помогает уменьшить финансовые риски. 2
- Обнаружение мошенничества. 15 Например, в задаче обнаружения мошеннических транзакций по банковским картам, где обычных транзакций больше, а мошеннических — меньше. 15
- Анализ оттока клиентов. 1 Например, в телекоммуникационной отрасли, где число клиентов, желающих отказаться от услуг компании, существенно меньше числа остальных клиентов. 1
- Обнаружение редких заболеваний. 5 В таких случаях сбор данных о классе-меньшинстве может быть затруднён. 5