Метод исключения аномальных значений в анализе данных заключается в выявлении и удалении из набора данных значений, которые не характерны для основной совокупности. 3
Аномальные значения могут возникать из-за ошибок измерения, ввода данных или других факторов. 1 Их исключение необходимо по нескольким причинам: 1
- Повышение точности решения. 1 Удаление аномальных значений может улучшить работу предсказательных моделей. 1
- Коррекция графических и статистических характеристик. 1 Например, несколько аномальных значений в истории продаж способны серьёзно изменить средний чек, а построенный на этих данных график не будет отражать реального положения дел. 1
- Получение объектов изучения с нормальным распределением. 1 Это расширяет спектр инструментов для последующего анализа. 1
Некоторые методы исключения аномальных значений:
- Удаление значений. 1 Аномальные значения удаляют, если достоверно известно, что они содержат неверные данные, или если причина, по которой возник выброс, может произойти в будущем с очень малой вероятностью. 1
- Изменение значений. 1 Если причина выбросов известна, то иногда можно изменить неправильные значения. 1
- Замена значений. 1 Для замены выбросов используют медиану, среднее значение, граничное значение, выбранное экспертом, среднее значение из наиболее вероятного интервала. 1
Универсального метода или алгоритма поиска аномальных значений нет, так как существует много критериев и подходов для их идентификации. 1 Выбор метода зависит от объёма совокупности, характера исследуемых процессов и задач. 3