Некоторые критерии информативности, которые используются при синтезе решающего дерева, и их смысл:
- Прирост информации. 1 Помогает определить, насколько хорошо разделение узлов в дереве решений. 1 Чем выше прирост информации, тем лучше разделение. 1
- Дисперсия. 2 В регрессии информативность вершины измеряется её дисперсией: чем ниже разброс целевой переменной, тем лучше вершина. 2
- Неопределённость (загрязнённость) Джини. 5 Мера разнообразия в распределении вероятностей классов. 5 Если все элементы в узле принадлежат к одному классу, то неопределённость Джини равна 0, а в случае равномерного распределения классов в узле — 0,5. 5
- Энтропия Шеннона. 5 Мера неопределённости или беспорядка классов в узле. 5 Она характеризует количество информации, которое необходимо для описания состояния системы: чем выше значение энтропии, тем менее упорядочена система и наоборот. 5
Эти критерии помогают оценить качество распределения целевой переменной среди объектов множества. 2 Чем меньше разнообразие целевой переменной, тем меньше должно быть значение критерия информативности, и задача — минимизировать его значение. 23