Обрезка дерева решений — это метод сжатия данных в машинном обучении, который уменьшает размер дерева за счёт удаления некритичных и избыточных для классификации участков дерева. 1
Процессы обрезки можно разделить на два типа: 1
- Предварительная обрезка. 1 Процедуры предотвращают полную индукцию обучающего набора, заменяя критерий остановки в алгоритме индукции. 1 Методы предварительной обрезки считаются более эффективными, поскольку деревья с самого начала остаются небольшими. 1
- Последующая обрезка. 1 Это наиболее распространённый способ упрощения деревьев. 1 Здесь узлы и поддеревья заменяются листьями для уменьшения сложности. 1
Некоторые методы последующей обрезки:
- Обрезка снизу вверх. 1 Процедуры начинаются с последнего узла в дереве (самой нижней точки). 1 Следуя рекурсивно вверх, определяют релевантность каждого отдельного узла. 1 Если релевантность для классификации не указана, узел удаляется или заменяется листом. 1
- Обрезка сверху вниз. 1 В отличие от метода «снизу вверх», этот метод начинается с корня дерева. 1 Выполняется проверка релевантности, которая решает, является ли узел релевантным для классификации всех элементов или нет. 1
Также для предотвращения переобучения деревьев при использовании sklearn рекомендуется при инициализации дерева с помощью функции DecisionTreeClassifier в параметре max_depth указать желаемое значение максимальной глубины дерева. 2