Преимущества метода синтеза новых данных SMOTE:
- Повышение производительности моделей машинного обучения. 1 SMOTE создаёт синтетические примеры для класса меньшинств, что помогает более эффективному изучению базовых шаблонов и границ принятия решений. 1
- Уменьшение переобучения. 1 SMOTE генерирует новые синтетические образцы, а не просто дублирует существующие, что снижает риск переобучения. 2
- Создание более обобщаемой модели. 1 SMOTE помогает лучше понять и обобщить характеристики минорных классов. 4
- Поддержка множества классификаторов. 1 SMOTE работает с деревьями принятия решений, машинами опорных векторов, ближайшими соседями и нейронными сетями. 1
- Гибкость. 1 SMOTE позволяет регулировать уровень избыточной выборки и характеристики синтетических выборок, что делает его подходящим для различных сценариев и размеров набора данных. 1
- Простота реализации. 2 SMOTE — простой алгоритм, который можно реализовать с помощью различных библиотек и пакетов для разных языков программирования. 1
Некоторые недостатки SMOTE:
- Не учитывает качество синтетических образцов. 2 Синтетические образцы могут не точно отражать распределение миноритарного класса, что негативно влияет на производительность модели. 2
- Не подходит для наборов данных с перекрывающимися классами. 2 Если классы в наборе данных перекрываются в пространстве признаков, SMOTE может добавить шум и сделать границу принятия решения размытой. 2
- Высокая вычислительная сложность. 12 Генерация синтетических образцов для всех экземпляров миноритарного класса может быть затратной по времени, что в некоторых случаях ограничивает практическое применение SMOTE. 2
- Зависимость от параметра k. 3 Выбор параметра k, который определяет количество ближайших соседей для генерации синтетических образцов, может значительно влиять на качество синтетических данных. 23
- Несбалансированность после перевыборки. 3 SMOTE может увеличить количество образцов миноритарного класса, но также уменьшить количество образцов мажоритарного класса, что приводит к другому типу несбалансированности в пересобранном наборе данных. 3
- Неспособность улавливать сложные шаблоны. 13 SMOTE генерирует синтетические образцы путём интерполяции между соседними примерами, что может не улавливать более сложные шаблоны в миноритарном классе. 13