Деревья классификации — метод многомерного разведочного анализа, который позволяет решать задачи классификации информации, когда зависимая переменная принимает дискретные значения, и задачи прогнозирования принадлежности объекта выборки к определённому классу, когда зависимая переменная принимает непрерывные значения. cyberleninka.ru
Процесс применения метода: cyberleninka.ru
- В качестве исходных данных выступает таблица, в которой представлены значения признаков (переменных), характеризующих объект. cyberleninka.ru
- Одна из переменных (зависимая) содержит значения классов, к которым относятся объекты, остальные переменные (независимые) — значения показателей, позволяющих прогнозировать принадлежность объектов к тому или иному классу. cyberleninka.ru
- Корневая вершина, включающая в себя все объекты выборки, делится на вершины-потомки согласно решающему правилу. cyberleninka.ru
- Вершины-потомки, в свою очередь, согласно соответствующим решающим правилам, делятся до тех пор, пока не окажутся терминальными, то есть пока их дальнейшее деление не прекратится. cyberleninka.ru
- Каждая вершина (в том числе терминальная) будет соответствовать тому или иному классу объектов. cyberleninka.ru
Некоторые преимущества использования деревьев классификации в разведочном анализе данных:
- позволяют работать с переменными любого типа без необходимости какой-либо предварительной подготовки этих переменных для ввода в модель; ranalytics.github.io
- автоматически выполняют отбор информативных предикторов и учитывают возможные взаимодействия между ними; ranalytics.github.io
- можно эффективно применять к данным с пропущенными значениями. ranalytics.github.io