Нормализацию данных следует применять после разделения на обучающий и тестовый наборы. 25 Это связано с тем, что тестовый набор играет роль свежих невидимых данных, поэтому он не должен быть доступен на этапе обучения. 2 Использование любой информации, полученной из тестового набора до или во время обучения, может привести к систематической ошибке при оценке производительности. 2
При нормализации тестового набора следует применять параметры нормализации, ранее полученные из тренировочного набора. 2 Не стоит пересчитывать их на тестовом наборе, потому что они будут несовместимы с моделью, и это приведёт к неправильным прогнозам. 2
Да, порядок применения нормализации имеет значение при построении прогнозной модели. 8 Если данные отличаются в зависимости от того, выполняется ли нормализация до или после разделения, то лучше сделать это до. 8 Это связано с тем, что тестовому набору не следует «перетекать» и влиять на тренировочный набор, что потенциально приводит к чрезмерно оптимистичным показателям производительности. 8
Также при выборе алгоритма машинного обучения для использования при построении прогнозной модели стоит ознакомиться с требованиями алгоритма к данным, прежде чем применять нормализацию к обучающим данным. 4