Некоторые методы, которые используются для восстановления пропущенных данных в статистических рядах:
- Исключение строк с пропусками. 1 Метод применяется, когда пропуски в данных по переменным полностью случайные. 1 Обычно используется при незначительном количестве пропусков в таблице. 1 Главный недостаток — потеря информации при исключении неполных данных. 1
- Заполнение пропусков средними по столбцу значениями. 1 Метод имеет смысл, когда пропуски в данных по переменным являются случайными и сам механизм пропусков несущественен. 1 К недостаткам относят вносимые искажения в распределения данных, уменьшение дисперсии. 1
- Метод ближайших соседей. 1 В основе метода лежит поиск строк таблицы, которые по определённому критерию являются ближайшими к строке с пропусками. 1 Для заполнения пропуска значения данной переменной у соседних строк усредняются с определёнными весовыми коэффициентами, обратно пропорциональными расстоянию к строке с пропуском. 1
- Регрессионный анализ. 1 Качество восстановления пропусков напрямую зависит от успешного выбора взятой за основу регрессионной модели. 1
- Метод сплайн-интерполяции. 13 Для успешного применения необходимо, чтобы данные следовали условию MAR. 13
- Алгоритмы ZET и ZetBraid. 1 Главная идея алгоритма ZET заключается в подборе «компетентной матрицы», используя данные из неё находят параметры зависимости, которая применяется для прогнозирования пропущенного значения. 1
- Присвоение пропускам специальной категории. 2 Вместо того чтобы оставлять пустое значение, можно записать в него специальное число или строку — ту, которую выбрали самостоятельно. 2
- Замена с учётом других значений в столбце. 2 Можно заполнить пропущенные значения, обращая внимание на другие наблюдения. 2 Помимо средней оценки, можно использовать медиану или моду. 2