Вопросы к Поиску с Алисой
Target Encoding может привести к утечке информации из-за неосторожного использования целевой переменной или признака, построенного на её основе. habr.com
Суть метода заключается в том, что для каждой категории вычисляется среднее значение целевой переменной, и это значение используется для замены исходной категории. olegtalks.ru В экспериментальной среде такие признаки могут давать высокие метрики качества, но в реальной среде фича становится недоступной, и модель теряет способность делать прогнозы. habr.com
Чтобы избежать переобучения, рекомендуется использовать целевую переменную с осторожностью и ответственно подходить к подсчёту качества на тестовой выборке. habr.com Для построения моделей можно применять данные, основанные на значениях целевой переменной, но в тестовой выборке должны использоваться только данные из обучения. habr.com