Механизм отбора признаков в алгоритмах машинного обучения работает следующим образом: происходит процедура отбрасывания незначащих переменных из очищенной выборки перед запуском обучения. bigdataschool.ru
Некоторые методы отбора признаков:
- Методы фильтрации. bigdataschool.ru Основаны на теории вероятностей и статистических подходах. bigdataschool.ru Позволяют ранжировать признаки по значимости, оценив степень корреляции каждого из них с целевой переменной. bigdataschool.ru Далее модель машинного обучения использует только те предикторы, которые соответствуют определённым критериям. bigdataschool.ru
- Обёрточные методы. bigdataschool.ru Классификатор запускается на разных подмножествах признаков исходной тренировочной выборки. bigdataschool.ru В этой категории есть два подхода: включение (forward selection) и исключение (backwards selection) предикторов. bigdataschool.ru Методы включения начинают с пустого подмножества, куда постепенно добавляются разные признаки. bigdataschool.ru В случае исключения метод стартует с исходного множества признаков, постепенно удаляя из него переменные и пересчитывая классификатор. bigdataschool.ru Далее выбирается подмножество признаков с наилучшими параметрами на обучающей выборке и тестируется на контрольном (тестовом) датасете. bigdataschool.ru
- Встроенные методы. bigdataschool.ru Не разделяют отбор признаков и обучение классификатора, а выделяют предикторы во время процесса расчёта модели. bigdataschool.ru Основным методом этой категории является регуляризация — добавление дополнительных ограничений (штрафов) к условиям задачи, чтобы построить алгоритм, минимизирующий ошибку и количество используемых переменных. bigdataschool.ru
Главная идея отбора признаков — выявить и сохранить наиболее информативные признаки при одновременном устранении избыточных или нерелевантных. www.analyticsvidhya.com