Аномальные результаты в статистическом анализе данных обрабатываются с помощью различных методов, которые зависят от характера аномалий и причин их возникновения. 12
Некоторые методы обработки аномалий:
- Удаление значений. 4 Экстремальные значения удаляют, если достоверно известно, что они содержат неверные данные, или если причина, по которой возник выброс, может произойти в будущем с очень малой вероятностью. 4
- Изменение значений. 4 Если причина выбросов известна, то иногда можно изменить неправильные значения. 4 Например, в случае с ошибками, возникшими из-за дефектов или поломок средства измерения, замена или ремонт прибора позволяет провести повторные замеры и заменить ошибочные данные актуальными. 4
- Замена значений. 4 Для замены выбросов используют медиану, среднее значение, граничное значение, выбранное экспертом, среднее значение из наиболее вероятного интервала. 4
- Преобразование переменных. 4 Например, можно устранить выбросы, взяв натуральный логарифм значения. 4 Таким образом уменьшается вариация, вызванная экстремальными значениями. 4
- Нормализация данных. 4 Позволяет привести данные к единому масштабу. 4
Для определения аномалий используют, например, статистические методы, которые оценивают такие характеристики данных, как среднее значение, стандартное отклонение и квартили. 2
Важно помнить, что сами по себе статистические тесты не могут дать достоверный ответ на вопрос, следует ли отбрасывать или корректировать обнаруженные выбросы. 4 Такое решение нужно принимать, опираясь на знание предметной области и особенностей процесса сбора данных. 4