Некоторые методы выявления аномальных значений в выборке:
- Метод опорных векторов с одним классом (One-Class SVM). habr.com Подходит, когда в обучающем наборе данные подчиняются нормальному распределению, а в тестовом содержат аномалии. habr.com
- Метод изолирующего леса (Isolation Forest). mzym.susu.ru При «случайном» способе построения деревьев выбросы будут попадать в листья на ранних этапах (на небольшой глубине дерева), то есть их проще «изолировать». habr.com Выделение аномальных значений происходит на первых итерациях работы алгоритма. habr.com
- Метрические методы. habr.com К ним относятся такие алгоритмы, как k ближайших соседей, k-го ближайшего соседа, ABOD (angle-based outlier detection) или LOF (local outlier factor). habr.com Подходят, если расстояние между значениями в признаках равнозначны либо нормированы. habr.com
- Кластерные методы. habr.com Суть заключается в том, что если значение удалено от центров кластеров более чем на определённую величину, значение можно считать аномальным. habr.com
- Алгоритмы на основе прогнозирования временных рядов. habr.com Идея заключается в том, что если значение выбивается из доверительного интервала предсказания, значение считается аномальным. habr.com
- Обучение с учителем (регрессия, классификация). habr.com Если данные позволяют, используются алгоритмы от линейной регрессии до рекуррентных сетей. habr.com Замеряется разница между предсказанием и фактическим значением, и делается вывод, насколько данные выбиваются из нормы. habr.com
- Модельные тесты. habr.com Матрица признаков раскладывается с помощью SVD или факторизационных машин, и значения в новой матрице, существенно отличающиеся от исходных, принимаются аномальными. habr.com
Нет идеального алгоритма или подхода, применение которого решает все задачи. habr.com Чаще используется комплекс методов для решения конкретного кейса. habr.com