Некоторые методы исключения выбросов из статистических данных:
- Визуализация. 14 Позволяет сразу разглядеть отклонения, незаметные на больших наборах данных. 1 Для этого используют, например, прямоугольные диаграммы, точечные диаграммы и гистограммы. 24
- Удаление значений. 1 Экстремальные значения удаляют, если достоверно известно, что они содержат неверные данные, или если причина, по которой возник выброс, может произойти в будущем с очень малой вероятностью. 1
- Изменение значений. 1 Если причина выбросов известна, то иногда можно изменить неправильные значения. 1 Например, в случае с ошибками, возникшими из-за дефектов или поломок средства измерения, замена или ремонт прибора позволяет провести повторные замеры и заменить ошибочные данные актуальными. 1
- Замена значений. 1 Наиболее широко используемыми вариантами для замены выбросов являются: медиана, среднее значение, граничное значение, выбранное экспертом, среднее значение из наиболее вероятного интервала. 1
- Преобразование переменных. 1 Например, взяв натуральный логарифм значения, можно уменьшить вариацию, вызванную экстремальными значениями. 1
- Нормализация данных. 1 Позволяет привести данные к единому масштабу. 1
Важно помнить, что сами по себе статистические тесты не могут дать достоверный ответ на вопрос, следует ли отбрасывать или корректировать обнаруженные выбросы. 1 Такое решение нужно принимать, опираясь на знание предметной области и особенностей процесса сбора данных. 1