Для решения задач классификации с несбалансированными классами можно применять различные методы сэмплирования, например:
- Случайное удаление (random undesampling). loginom.ru Простая стратегия, при которой определяется число примеров доминирующего класса, которые нужно удалить, чтобы достичь требуемого соотношения классов в обучающей выборке. loginom.ru Затем случайным образом выбираются и удаляются нужные наблюдения. loginom.ru
- Односторонний сэмплинг (One-side sampling, one-sided selection — OSS). loginom.ru На первом шаге применяется правило сосредоточенного ближайшего соседа, а на втором — удаляются все мажоритарные наблюдения, участвующие в связях Томека. loginom.ru Таким образом удаляются большие «сгустки» мажоритарных наблюдений, а затем область пространства со скоплением миноритарных очищается от мажоритарных, которые создают эффект шума на границах классов и мешают их распознаванию. loginom.ru
- Правило «очищающего» соседа (neighborhood cleaning rule — NCR). loginom.ru Все наблюдения классифицируются по правилу трёх ближайших соседей (3-NN). loginom.ru Затем удаляются примеры мажоритарного класса, которые правильно распознаны или являются соседями миноритарных примеров, которые были неверно классифицированы. loginom.ru
- Дублирование примеров миноритарного класса (oversampling). loginom.ru Самый простой метод — дублирование примеров миноритарного класса. loginom.ru В зависимости от того, какое соотношение классов необходимо получить в выборке, выбирается случайным образом соответствующее количество наблюдений для дублирования. loginom.ru
- Алгоритм SMOTE. loginom.ru itstd-journal.ru В основе алгоритма лежит идея генерации некоторого количества искусственных наблюдений, которые были бы «похожи» на наблюдения, имеющиеся в миноритарном классе, но при этом не дублировали их. loginom.ru
Выбор подхода зависит от специфики задачи, выбранных модели и метрики, особенностей датасета. oxoi.ru