Выбросы — это аномальные значения измеряемого параметра, сильно отличающиеся от основной массы элементов выборки. 1 Они могут быть следствием неточных входных данных, погрешностей на отдельных этапах измерений, погрешностей методов вычислений, сбоя оборудования, ошибки оператора и других причин. 1
Фильтрация выбросов в непараметрической регрессии осуществляется с помощью различных методов, например:
- Кластеризация DBSCAN. 23 Это непараметрический метод обнаружения выбросов на основе плотности в одномерном или многомерном пространстве признаков. 2 Точки, находящиеся слишком далеко от центров кластеров, считаются выбросами. 3
- Z-балл. 3 Измеряет отклонение наблюдения от среднего значения в терминах стандартного отклонения, предполагая нормальное распределение. 3 Определяется пороговый диапазон, и наблюдения, выходящие за его пределы, помечаются как выбросы. 3
- Алгоритм изолированного леса. 3 Создаёт случайные разбиения на основе объекта. 3 Средняя длина пути таких деревьев служит функцией принятия решения. 3 Всем наблюдениям присваивается оценка аномалии: выбросы имеют меньшую длину пути, поскольку их легче изолировать. 3
Также для работы с данными, содержащими выбросы, применяют методы робастной статистики, которые позволяют сгладить влияние выброса на результаты моделирования. 1