Разница между методами расчёта важности признаков в LightGBM — gain и split заключается в подходе к определению важности признака. 13
Gain оценивает важность признака на основе улучшения критерия разделения (например, чистоты Гни, информационного выигрыша, квадратичной ошибки), которое достигается с помощью конкретного признака для разделения. 1 Другими словами, этот метод измеряет, насколько признак способствует снижению общей ошибки или увеличению чистоты узлов в деревьях. 1
Split рассчитывает важность признака, подсчитывая, сколько раз признак используется для разделения узлов во всех деревьях модели. 1 Этот метод фокусируется на частоте использования признака в деревьях, так как предполагается, что более часто используемые признаки важнее. 1
Таким образом, метод gain ориентирован на качество разделения, а метод split — на частоту использования признака. 13
Выбор между этими методами зависит от конкретной задачи и целей. 3 Если нужен быстрый обзор того, какие признаки используются чаще всего, подойдёт метод split, а метод gain рекомендуется для более информативного и точного измерения важности признака, так как он учитывает качество разделения. 3