Выбросы в регрессионной модели — это точки данных, которые значительно отклоняются от общей структуры данных. www.geeksforgeeks.org Они могут оказывать большое влияние на модель, приводить к необъективным оценкам параметров и низкой эффективности прогнозирования. www.geeksforgeeks.org
Несколько методов определения выбросов:
- Визуальный осмотр. www.geeksforgeeks.org Можно использовать точечные диаграммы, чтобы сопоставить зависимую переменную с независимой и определить точки, которые далеки от ожидаемой взаимосвязи. www.geeksforgeeks.org Также можно применять графики остатков, которые отображают различия между наблюдаемыми и прогнозируемыми значениями. www.geeksforgeeks.org
- Статистические методы. www.geeksforgeeks.org Например, можно использовать изученные остатки, которые представляют собой остатки, разделённые на оценку их стандартного отклонения. www.geeksforgeeks.org Также применяют расстояние Кука, которое измеряет влияние каждой точки данных на установленные значения. www.geeksforgeeks.org Точки, расстояние до которых превышает определённый порог (обычно 4 / n, где n — количество точек данных), считаются потенциальными выбросами. www.geeksforgeeks.org
- Использование надёжных методов регрессии. www.geeksforgeeks.org К ним относятся наименьшие абсолютные отклонения (LAD), M-оценка и наименьшие обрезанные квадраты (LTS). www.geeksforgeeks.org LAD минимизирует сумму абсолютных остатков, M-оценка использует функцию потерь, которая уменьшает влияние выбросов, а LTS минимизирует сумму наименьших квадратов остатков, игнорируя наибольшие остатки, которые, вероятно, связаны с выбросами. www.geeksforgeeks.org
Нет строгого определения, что считать «нетипичным». tidydata.ru Каждый случай исследователь рассматривает отдельно. tidydata.ru