Некоторые алгоритмы, которые применяются для восстановления пропущенных данных в математических задачах:
- Игнорирование объектов с пропусками. 1 Метод применим, когда малая часть объектов выборки имеет пропущенные значения. 1
- Замена специальным значением. 1 Например, на 0 или -1. 1 Этот подход позволяет не уменьшать размер выборки, но может вносить значения, сильно отличающиеся от настоящих. 1
- Замена самым частым или средним значением. 1 В случае категориального признака все пропуски заменяются на наиболее часто встречающееся значение, в случае количественного признака — на среднее значение по признаку. 1
- Подбор внутри групп. 2 Совокупность объектов разбивается на группы по определённому признаку, внутри каждой группы для заполнения пропусков используются только присутствующие в ней значения. 2
- Метод Hot Deck. 2 Используется в одномоментных исследованиях и представляет собой подстановку вместо пропуска значения по данной переменной у наиболее близкого объекта с полной информацией. 2
- Сложные итеративные алгоритмы. 2 Предполагают оптимизацию функционала, отражающего точность расчёта подставляемых на место пропуска значений. 2 Их можно разделить на глобальные (в оценивании каждого пропущенного значения участвуют все объекты рассматриваемой совокупности) и локальные (в оценивании участвуют полные наблюдения, находящиеся в некоторой окрестности предсказываемого объекта). 2 К ним относятся метод Бартлета, ЕМ-оценивание и Resampling. 2
- Статистические подходы. 3 Например, EM-алгоритм, Full information maximum likelihood (FIML, полная оценка максимального правдоподобия). 3 Эти подходы показывают неплохие результаты на больших выборках. 3