Для выявления аномалий в данных используют статистические методы, которые основаны на предположении о статистическом распределении данных и выявлении точек, отклоняющихся от этого распределения. sky.pro
Некоторые методы:
- Z-оценка. habr.com Это мера относительного разброса наблюдаемого или измеренного значения, которая показывает, сколько стандартных отклонений составляет его разброс относительно среднего значения. habr.com Z-оценка измеряет, насколько далеко конкретное значение находится от среднего значения. habr.com
- Метод межквартильного размаха (IQR). sky.pro Эффективен для данных, не подчиняющихся нормальному распределению. sky.pro С помощью IQR находят максимальные и минимальные (экстремальные) значения. loginom.ru
- Статистические тесты. sky.pro Например, тест Граббса проверяет, является ли минимальное или максимальное значение выборки выбросом, а критерий Шовене определяет вероятность появления значения, столь же отклоняющегося от среднего. sky.pro
- Специализированные инструменты для временных рядов. sky.pro К ним относятся ARIMA с анализом остатков (модель прогнозирования, где аномалии выявляются как значительные отклонения фактических значений от прогнозных), экспоненциальное сглаживание и STL-декомпозиция. sky.pro
Важно помнить, что сами по себе статистические тесты не могут дать достоверный ответ на вопрос, следует ли отбрасывать или корректировать обнаруженные выбросы. loginom.ru Такое решение нужно принимать, опираясь на знание предметной области и особенностей процесса сбора данных. loginom.ru