Некоторые методы выявления аномальных значений в выборке:
- Метод опорных векторов с одним классом (One-Class SVM). 1 Подходит, когда в обучающем наборе данные подчиняются нормальному распределению, а в тестовом содержат аномалии. 1
- Метод изолирующего леса (Isolation Forest). 3 При «случайном» способе построения деревьев выбросы будут попадать в листья на ранних этапах (на небольшой глубине дерева), то есть их проще «изолировать». 1 Выделение аномальных значений происходит на первых итерациях работы алгоритма. 1
- Метрические методы. 1 К ним относятся такие алгоритмы, как k ближайших соседей, k-го ближайшего соседа, ABOD (angle-based outlier detection) или LOF (local outlier factor). 1 Подходят, если расстояние между значениями в признаках равнозначны либо нормированы. 1
- Кластерные методы. 1 Суть заключается в том, что если значение удалено от центров кластеров более чем на определённую величину, значение можно считать аномальным. 1
- Алгоритмы на основе прогнозирования временных рядов. 1 Идея заключается в том, что если значение выбивается из доверительного интервала предсказания, значение считается аномальным. 1
- Обучение с учителем (регрессия, классификация). 1 Если данные позволяют, используются алгоритмы от линейной регрессии до рекуррентных сетей. 1 Замеряется разница между предсказанием и фактическим значением, и делается вывод, насколько данные выбиваются из нормы. 1
- Модельные тесты. 1 Матрица признаков раскладывается с помощью SVD или факторизационных машин, и значения в новой матрице, существенно отличающиеся от исходных, принимаются аномальными. 1
Нет идеального алгоритма или подхода, применение которого решает все задачи. 1 Чаще используется комплекс методов для решения конкретного кейса. 1