Для заполнения пропущенных данных можно использовать различные методы, например:
- Заполнение средним значением. 3 Все пропущенные значения заменяются средним значением данного признака, рассчитанным по имеющимся данным. 3
- Подбор внутри групп. 3 Вся совокупность объектов разбивается на группы по определённому признаку, внутри каждой группы для заполнения пропусков используются только присутствующие в ней значения. 3
- Метод Hot Deck. 3 Используется в одномоментных исследованиях и представляет собой подстановку вместо пропуска значения по данной переменной у наиболее близкого объекта с полной информацией. 3
- Заполнение без подбора. 5 Пропуск заполняется постоянным значением из внешнего источника, например значением предыдущего наблюдения из этого же обследования. 5
- Заполнение по регрессии. 5 Состоит в заполнении пропусков значениями, предсказываемыми регрессией пропущенных для данного объекта переменных на присутствующие, вычисляемой обычно по комплектным объектам. 5
Последствия невнимательного заполнения данных могут быть различными, например:
- Искажение структуры результирующих данных. 3 Она смещается в сторону структуры только полных наблюдений. 3
- Смещение значимости получаемых на основе данных результатов. 3 Искусственная подстановка пропусков вносит в массив определённую долю искусственных данных, которые приводят к смещению значимости получаемых на их основе результатов. 3
- Ошибка выборки. 6 Любая модель хороша настолько, насколько хороши её исходные данные, и если данные отклоняются от реальности, то же самое будет с моделью. 6