SMOTE (Synthetic Minority Oversampling Technique) отличается от других методов обработки несбалансированных данных тем, что фокусируется на увеличении количества примеров класса меньшинства, в то время как другие методы, например недостаточной выборки, удаляют примеры класса большинства. naoris.platodata.ai
SMOTE создаёт новые образцы, основываясь на близости между существующими образцами в меньшем классе. itstd-journal.ru Алгоритм выбирает ближайшие примеры в пространстве признаков, проводит линию между ними и в точке вдоль линии создаёт новый образец. naoris.platodata.ai
Некоторые другие методы обработки несбалансированных данных:
- Недостаточная выборка. naoris.platodata.ai Этот метод выбирает точки данных на основе расстояния между примерами классов большинства и меньшинства. naoris.platodata.ai
- Сжатая неполная дискретизация ближайших соседей (CNN). naoris.platodata.ai Метод стремится к подмножеству набора образцов, которое минимизирует потери модели. naoris.platodata.ai
- Tomek Links. naoris.platodata.ai Метод представляет собой модифицированную версию CNN, в которой избыточные примеры выбираются случайным образом для удаления из класса большинства. naoris.platodata.ai
- Отредактированная неполная выборка ближайших соседей. naoris.platodata.ai Метод использует подход ближайших соседей и удаляет в соответствии с неправильной классификацией выборок. naoris.platodata.ai
- Адаптивная синтетическая выборка (ADASYN). loginom.ru naoris.platodata.ai Подход работает в соответствии с плотностью экземпляров класса меньшинства. naoris.platodata.ai Генерирует больше выборок в области пространства признаков, где плотность примеров класса меньшинства низкая или отсутствует, и меньше выборок в пространстве с высокой плотностью. naoris.platodata.ai