Случайный лес оценивает важность объекта, используя два метода: 4
- Важность на основе точности. 4 У каждого дерева есть своя готовая выборка данных, которая не использовалась при построении. 4 Эта выборка используется для расчёта важности конкретной переменной. 4 Сначала измеряется точность предсказания для выборки из упаковки. 4 Затем значения переменной в выборке случайным образом перемешиваются, оставляя все остальные переменные неизменными. 4 После этого измеряется снижение точности предсказания для перетасованных данных. 4 Сообщается о среднем снижении точности по всем деревьям. 4
- Важность на основе Джини. 4 Когда дерево построено, решение о том, какую переменную разделить в каждом узле, принимает вычисление примеси Джини. 4 Для каждой переменной сумма убывания Джини по каждому дереву леса накапливается каждый раз, когда эта переменная выбирается для разделения узла. 4 Сумма делится на количество деревьев в лесу, чтобы получить среднее значение. 4
Параметры выборки, которые дают бо́льшие значения, считаются более важными для тренировочного набора. 1