Удаление выбросов из набора данных перед анализом важно по нескольким причинам:
- Повышение точности решения. 1 Большинство аналитических алгоритмов, работая с наборами, в которых есть экстремальные значения, пытаются найти решение, описывающее всю совокупность данных. 1 Однако в итоге получается модель, которая плохо описывает и выбросы, и остальные средние значения. 1 Удаление выбросов может повысить точность решения при построении предсказательных моделей. 1
- Искажение графических и статистических характеристик. 1 Например, несколько экстремальных выбросов в истории продаж способны серьёзно изменить средний чек, а построенный на этих данных график не будет отражать реального положения дел. 1
- Расширение спектра инструментов для последующего анализа. 1 В некоторых случаях удаление выбросов способствует получению объектов изучения с нормальным распределением, что расширяет спектр инструментов для последующего анализа. 1
Однако есть ситуации, когда выбросы нужно оставить в наборе данных. 3 Например, если выброс не является результатом ошибки и/или даёт новое понимание тестируемого явления. 3