SMOTE (Synthetic Minority Oversampling Technique) отличается от других методов обработки несбалансированных данных тем, что фокусируется на увеличении количества примеров класса меньшинства, в то время как другие методы, например недостаточной выборки, удаляют примеры класса большинства. 5
SMOTE создаёт новые образцы, основываясь на близости между существующими образцами в меньшем классе. 1 Алгоритм выбирает ближайшие примеры в пространстве признаков, проводит линию между ними и в точке вдоль линии создаёт новый образец. 5
Некоторые другие методы обработки несбалансированных данных:
- Недостаточная выборка. 5 Этот метод выбирает точки данных на основе расстояния между примерами классов большинства и меньшинства. 5
- Сжатая неполная дискретизация ближайших соседей (CNN). 5 Метод стремится к подмножеству набора образцов, которое минимизирует потери модели. 5
- Tomek Links. 5 Метод представляет собой модифицированную версию CNN, в которой избыточные примеры выбираются случайным образом для удаления из класса большинства. 5
- Отредактированная неполная выборка ближайших соседей. 5 Метод использует подход ближайших соседей и удаляет в соответствии с неправильной классификацией выборок. 5
- Адаптивная синтетическая выборка (ADASYN). 45 Подход работает в соответствии с плотностью экземпляров класса меньшинства. 5 Генерирует больше выборок в области пространства признаков, где плотность примеров класса меньшинства низкая или отсутствует, и меньше выборок в пространстве с высокой плотностью. 5