Случайный лес оценивает важность объекта, используя два метода: yandex.ru
- Важность на основе точности. yandex.ru У каждого дерева есть своя готовая выборка данных, которая не использовалась при построении. yandex.ru Эта выборка используется для расчёта важности конкретной переменной. yandex.ru Сначала измеряется точность предсказания для выборки из упаковки. yandex.ru Затем значения переменной в выборке случайным образом перемешиваются, оставляя все остальные переменные неизменными. yandex.ru После этого измеряется снижение точности предсказания для перетасованных данных. yandex.ru Сообщается о среднем снижении точности по всем деревьям. yandex.ru
- Важность на основе Джини. yandex.ru Когда дерево построено, решение о том, какую переменную разделить в каждом узле, принимает вычисление примеси Джини. yandex.ru Для каждой переменной сумма убывания Джини по каждому дереву леса накапливается каждый раз, когда эта переменная выбирается для разделения узла. yandex.ru Сумма делится на количество деревьев в лесу, чтобы получить среднее значение. yandex.ru
Параметры выборки, которые дают бо́льшие значения, считаются более важными для тренировочного набора. ru.wikipedia.org