Вопросы к Поиску с Алисой
Нормализацию данных следует применять после разделения на обучающий и тестовый наборы. yandex.ru www.dmitrymakarov.ru Это связано с тем, что тестовый набор играет роль свежих невидимых данных, поэтому он не должен быть доступен на этапе обучения. yandex.ru Использование любой информации, полученной из тестового набора до или во время обучения, может привести к систематической ошибке при оценке производительности. yandex.ru
При нормализации тестового набора следует применять параметры нормализации, ранее полученные из тренировочного набора. yandex.ru Не стоит пересчитывать их на тестовом наборе, потому что они будут несовместимы с моделью, и это приведёт к неправильным прогнозам. yandex.ru
Да, порядок применения нормализации имеет значение при построении прогнозной модели. stackoverflow.com Если данные отличаются в зависимости от того, выполняется ли нормализация до или после разделения, то лучше сделать это до. stackoverflow.com Это связано с тем, что тестовому набору не следует «перетекать» и влиять на тренировочный набор, что потенциально приводит к чрезмерно оптимистичным показателям производительности. stackoverflow.com
Также при выборе алгоритма машинного обучения для использования при построении прогнозной модели стоит ознакомиться с требованиями алгоритма к данным, прежде чем применять нормализацию к обучающим данным. docs.microsoft.com