Разница между стратегиями замены пропущенных значений «mean» и «median» заключается в том, что каждая из них используется в разных ситуациях:
- Стратегия «mean» предполагает замену пропущенных значений средним значением всего столбца признаков. 1 Этот метод подходит для симметричного распределения данных, но может быть сильно influenced выбросами или крайне высокими или низкими значениями. 1
- Стратегия «median» предполагает замену пропущенных значений средним значением всего столбца признаков. 1 Она предпочтительнее, когда распределение искажено, так как медиана менее чувствительна к выбросам, чем среднее значение. 1
Таким образом, стратегия «mean» используется при нормальном распределении данных, а «median» — при искажённом. 2