Некоторые методы восстановления пропущенных данных:
- Замена пропущенных значений средним или медианой. habr.com Для этого нужно вычислить среднее или медиану имеющихся значений для каждого столбца и вставить полученное значение в пропущенные ячейки. habr.com Метод простой и быстрый, но не работает с качественными переменными. habr.com
- Замена самым часто встречающимся значением или константой. habr.com Можно использовать для качественных переменных. habr.com
- Метод k ближайших соседей (kNN). habr.com Основан на оценивании сходства объектов. habr.com С его помощью можно вычислить значения пропущенных атрибутов на основании дистанций от попавших в область объектов и соответствующих значений этого же атрибута у других объектов. habr.com
- Множественная импутация данных (MICE). habr.com Суть метода в том, что импутация каждого значения проводится не один раз, а много. habr.com Такой тип замены пропущенных значений позволяет понять, насколько надёжно или ненадёжно предложенное значение. habr.com
- Импутация данных с помощью глубокого обучения. habr.com Библиотека datawig позволяет восстанавливать недостающие значения за счёт тренировки нейронной сети на тех точках, для которых есть все параметры. habr.com
- Экстраполяция и интерполяция. tproger.ru Пытаются восстановить значения на основании ограниченного набора известных точек. tproger.ru
Универсального метода восстановления пропущенных данных не существует, для каждой конкретной задачи приходится искать наиболее подходящие методы или их комбинации. habr.com