Методы обрезки дерева решений можно разделить на две группы: 2
- Методы предварительной обрезки. 2 Подразумевают остановку роста дерева решений в процессе обучения на основе определённых заранее критериев. 1 Этот подход направлен на предотвращение излишней сложности дерева, чтобы оно не перестало соответствовать обучающим данным. 1 К распространённым техникам предварительной обрезки относятся: 1
- Максимальная глубина (maximum depth) — ограничение глубины роста дерева. 1
- Минимальное количество образцов для разбиения (minimum samples for split) — требование минимального количества образцов для обоснования разбиения узла. 1
- Минимальное количество образцов на лист (minimum samples per leaf) — обеспечение того, чтобы каждый листовой узел имел по крайней мере определённое количество образцов. 1
- Максимальное количество узлов листа (maximum number of leaf nodes) — ограничение общего числа листовых узлов в дереве. 1
- Минимальное уменьшение примесей (minimum impurity decrease) — разрешение только тех разделений, которые уменьшают примесь (включения) на заданную величину. 1
- Методы последующей обрезки. 1 Позволяют дереву решений разрастаться в полную силу, а затем обрезаются для снижения сложности. 1 При таком подходе сначала создаётся полное дерево, а затем удаляются или сворачиваются ветви, которые не вносят существенного вклада в производительность модели. 1 Одна из распространённых техник последующей обрезки называется обрезкой с учётом сложности и потерь (cost-complexity pruning). 1
Выбор между предварительной и последующей обрезкой (или их сочетанием) зависит от конкретного набора данных, поставленной задачи и доступных вычислительных ресурсов. 1