Некоторые современные методы обработки данных для заполнения пропущенных значений:
- NoNA. 1 Алгоритм на основе методов машинного обучения с прогнозированием по каждому столбцу с пропусками. 1
- KNN. 1 Заполнение пропущенных значений с использованием k-ближайших соседей. 1 Отсутствующие значения каждой выборки заполняются с использованием среднего значения ближайших соседей, найденных в обучающем наборе. 1
- MICE. 1 Использование класса IterativeImputer sklearn, который моделирует каждую функцию с отсутствующими значениями как функцию других функций и использует эту оценку для заполнения. 1
- Присвоение пропускам специальной категории. 2 Вместо того чтобы оставлять пустое значение, в него записывают специальное число или строку. 2
- Замена с учётом других значений в столбце. 2 Пропущенные значения заполняют, обращая внимание на другие наблюдения. 2 Помимо средней оценки, можно использовать медиану или моду. 2
Выбор метода зависит от типа и объёма отсутствующих данных, а также от целей анализа. 3