Некоторые методы для борьбы с выбросами данных:
- Визуализация. 12 Позволяет сразу разглядеть отклонения, незаметные на больших наборах данных. 1 Один из популярных способов визуализации одномерных наборов — гистограмма. 1
- Удаление значений. 1 Экстремальные значения удаляют, если достоверно известно, что они содержат неверные данные, или если причина, по которой возник выброс, может произойти в будущем с очень малой вероятностью. 1
- Изменение значений. 1 Если причина выбросов известна, то иногда можно изменить неправильные значения. 1 Например, в случае с ошибками, возникшими из-за дефектов или поломок средства измерения, замена или ремонт прибора позволяет провести повторные замеры и заменить ошибочные данные актуальными. 1
- Замена значений. 1 Для замены выбросов используют медиану, среднее значение, граничное значение, выбранное экспертом, среднее значение из наиболее вероятного интервала. 1
- Преобразование переменных. 1 Например, можно устранить выбросы, взяв натуральный логарифм значения. 1 Таким образом уменьшается вариация, вызванная экстремальными значениями. 1
- Нормализация данных. 1 Позволяет привести данные к единому масштабу. 1
Нет универсального метода или алгоритма поиска экстремальных значений, так как существует много критериев и подходов для идентификации выбросов. 1 Решение о том, что правильнее применить, остаётся за аналитиком. 1