Выбросы — это аномальные значения измеряемого параметра, сильно отличающиеся от основной массы элементов выборки. www.sibsau.ru Они могут быть следствием неточных входных данных, погрешностей на отдельных этапах измерений, погрешностей методов вычислений, сбоя оборудования, ошибки оператора и других причин. www.sibsau.ru
Фильтрация выбросов в непараметрической регрессии осуществляется с помощью различных методов, например:
- Кластеризация DBSCAN. yandex.ru www.baeldung.com Это непараметрический метод обнаружения выбросов на основе плотности в одномерном или многомерном пространстве признаков. yandex.ru Точки, находящиеся слишком далеко от центров кластеров, считаются выбросами. www.baeldung.com
- Z-балл. www.baeldung.com Измеряет отклонение наблюдения от среднего значения в терминах стандартного отклонения, предполагая нормальное распределение. www.baeldung.com Определяется пороговый диапазон, и наблюдения, выходящие за его пределы, помечаются как выбросы. www.baeldung.com
- Алгоритм изолированного леса. www.baeldung.com Создаёт случайные разбиения на основе объекта. www.baeldung.com Средняя длина пути таких деревьев служит функцией принятия решения. www.baeldung.com Всем наблюдениям присваивается оценка аномалии: выбросы имеют меньшую длину пути, поскольку их легче изолировать. www.baeldung.com
Также для работы с данными, содержащими выбросы, применяют методы робастной статистики, которые позволяют сгладить влияние выброса на результаты моделирования. www.sibsau.ru