Деревья решений учитывают пропущенные данные при построении моделей с помощью нескольких подходов: 1
- Разделение атрибутов. 1 Алгоритм выбирает наиболее подходящий признак для разделения данных. 1 Если в выбранном объекте есть пропущенное значение, дерево использует доступные данные, чтобы решить, в какую ветвь отправить объект. 1
- Расчёт взвешенных примесей. 1 При построении дерева алгоритм выбирает объект, который предлагает наилучшее разделение в каждом узле. 1 Когда рассматривается объект с пропущенными значениями, алгоритм вычисляет нечёткость обеих ветвей: одна включает экземпляры с пропущенными значениями, а другая без них. 1
- Суррогатные разбиения. 1 Это резервные правила или ветви, которые можно использовать, когда первичное разбиение содержит пропущенные значения. 1 Деревья решений вычисляют суррогатные разделения во время обучения, учитывая наилучшие варианты разделения, когда у основного признака отсутствуют значения. 1
По умолчанию при прогнозировании образцы с пропущенными значениями классифицируются с классом, использованным в разбиении, найденном во время обучения. 4 Если оценка критерия одинакова для обоих узлов, то ничья по отсутствующему значению в момент предсказания разрушается путём перехода к правому узлу. 4