Выбросы в регрессионной модели — это точки данных, которые значительно отклоняются от общей структуры данных.                                                                          www.geeksforgeeks.org                       Они могут оказывать большое влияние на модель, приводить к необъективным оценкам параметров и низкой эффективности прогнозирования.                                                                          www.geeksforgeeks.org                      
 Несколько методов определения выбросов:
  - Визуальный осмотр.                                                                          www.geeksforgeeks.org                       Можно использовать точечные диаграммы, чтобы сопоставить зависимую переменную с независимой и определить точки, которые далеки от ожидаемой взаимосвязи.                                                                          www.geeksforgeeks.org                       Также можно применять графики остатков, которые отображают различия между наблюдаемыми и прогнозируемыми значениями.                                                                          www.geeksforgeeks.org                      
  - Статистические методы.                                                                          www.geeksforgeeks.org                       Например, можно использовать изученные остатки, которые представляют собой остатки, разделённые на оценку их стандартного отклонения.                                                                          www.geeksforgeeks.org                       Также применяют расстояние Кука, которое измеряет влияние каждой точки данных на установленные значения.                                                                          www.geeksforgeeks.org                       Точки, расстояние до которых превышает определённый порог (обычно 4 / n, где n — количество точек данных), считаются потенциальными выбросами.                                                                          www.geeksforgeeks.org                      
  - Использование надёжных методов регрессии.                                                                          www.geeksforgeeks.org                       К ним относятся наименьшие абсолютные отклонения (LAD), M-оценка и наименьшие обрезанные квадраты (LTS).                                                                          www.geeksforgeeks.org                       LAD минимизирует сумму абсолютных остатков, M-оценка использует функцию потерь, которая уменьшает влияние выбросов, а LTS минимизирует сумму наименьших квадратов остатков, игнорируя наибольшие остатки, которые, вероятно, связаны с выбросами.                                                                          www.geeksforgeeks.org                      
  
 Нет строгого определения, что считать «нетипичным».                                                                          tidydata.ru                       Каждый случай исследователь рассматривает отдельно.                                                                          tidydata.ru