Для решения задачи бинарной классификации при несбалансированности классов можно предпринять следующие шаги:
- Фиктивно увеличить выборку. 1 Для этого нужно продублировать объекты. 1
- Использовать метрику, устойчивую к несбалансированности классов. 1 Например, точность, полноту, долю ошибок первого или второго рода. 1
- Отмасштабировать данные (уменьшить размерность). 1 В качестве метрики можно использовать ROC-AUC, так как она нечувствительна к дисбалансу классов. 1
- Настроить порог. 35 Многие алгоритмы машинного обучения возвращают вероятности принадлежности к классам, а не просто метки классов. 5 При дисбалансе классов порог можно изменить так, чтобы повысить точность в классе меньшинства. 5
- Использовать ансамблевые методы. 5 Они могут эффективно учитывать дисбаланс классов, объединяя несколько моделей в одну. 5 Например, метод случайного леса может обучаться на сбалансированных подвыборках каждого класса и комбинировать результаты. 5
- Разработать пользовательский классификатор. 3 Это предполагает прямое включение мер, направленных на устранение дисбаланса классов, в архитектуру, параметры и гиперпараметры модели. 3
Выбор метода зависит от конкретной задачи и доступных данных. 5