Некоторые критерии информативности, которые используются при синтезе решающего дерева, и их смысл:
- Прирост информации. yandex.ru Помогает определить, насколько хорошо разделение узлов в дереве решений. yandex.ru Чем выше прирост информации, тем лучше разделение. yandex.ru
- Дисперсия. www.hse.ru В регрессии информативность вершины измеряется её дисперсией: чем ниже разброс целевой переменной, тем лучше вершина. www.hse.ru
- Неопределённость (загрязнённость) Джини. habr.com Мера разнообразия в распределении вероятностей классов. habr.com Если все элементы в узле принадлежат к одному классу, то неопределённость Джини равна 0, а в случае равномерного распределения классов в узле — 0,5. habr.com
- Энтропия Шеннона. habr.com Мера неопределённости или беспорядка классов в узле. habr.com Она характеризует количество информации, которое необходимо для описания состояния системы: чем выше значение энтропии, тем менее упорядочена система и наоборот. habr.com
Эти критерии помогают оценить качество распределения целевой переменной среди объектов множества. www.hse.ru Чем меньше разнообразие целевой переменной, тем меньше должно быть значение критерия информативности, и задача — минимизировать его значение. www.hse.ru vk.com