Обрезка дерева решений — это метод сжатия данных в машинном обучении, который уменьшает размер дерева за счёт удаления некритичных и избыточных для классификации участков дерева. en.wikipedia.org
Процессы обрезки можно разделить на два типа: en.wikipedia.org
- Предварительная обрезка. en.wikipedia.org Процедуры предотвращают полную индукцию обучающего набора, заменяя критерий остановки в алгоритме индукции. en.wikipedia.org Методы предварительной обрезки считаются более эффективными, поскольку деревья с самого начала остаются небольшими. en.wikipedia.org
- Последующая обрезка. en.wikipedia.org Это наиболее распространённый способ упрощения деревьев. en.wikipedia.org Здесь узлы и поддеревья заменяются листьями для уменьшения сложности. en.wikipedia.org
Некоторые методы последующей обрезки:
- Обрезка снизу вверх. en.wikipedia.org Процедуры начинаются с последнего узла в дереве (самой нижней точки). en.wikipedia.org Следуя рекурсивно вверх, определяют релевантность каждого отдельного узла. en.wikipedia.org Если релевантность для классификации не указана, узел удаляется или заменяется листом. en.wikipedia.org
- Обрезка сверху вниз. en.wikipedia.org В отличие от метода «снизу вверх», этот метод начинается с корня дерева. en.wikipedia.org Выполняется проверка релевантности, которая решает, является ли узел релевантным для классификации всех элементов или нет. en.wikipedia.org
Также для предотвращения переобучения деревьев при использовании sklearn рекомендуется при инициализации дерева с помощью функции DecisionTreeClassifier в параметре max_depth указать желаемое значение максимальной глубины дерева. yandex.ru