Разница между нормализацией и масштабированием данных заключается в следующем:
- Нормализация — это метод масштабирования, при котором значения сдвигаются и масштабируются таким образом, что в конечном итоге они находятся в диапазоне от 0 до 1. 14 Это делается для того, чтобы упростить сравнение, анализ и обработку данных. 8
- Стандартизация — ещё один метод масштабирования, при котором значения центрируются вокруг среднего значения с единичным стандартным отклонением. 1 Это означает, что среднее значение атрибута становится равным нулю, а результирующее распределение имеет единичное стандартное отклонение. 1 В этом случае значения не ограничены определённым диапазоном (экстремальные значения/выбросы могут оказаться снаружи). 1
Таким образом, нормализация подразумевает изменение диапазонов в данных без изменения формы распределения, а стандартизация изменяет форму распределения данных (приводится к нормальному распределению). 5