Некоторые преимущества и недостатки различных типов регрессионных моделей:
Преимущества: простота интерпретации, наглядность. 1 Коэффициенты модели показывают, как каждая независимая переменная влияет на зависимую, что упрощает понимание данных. 1
Недостатки: чувствительность к выбросам и аномалиям, линейность зависимостей. 1 В реальных данных такие зависимости встречаются нечасто, и использование линейной регрессии может привести к ошибкам, если зависимость сложнее. 1
Преимущества: подходит для нелинейно разделяемых данных, более гибкая и может моделировать сложные взаимосвязи. 5 Есть полный контроль над моделированием переменных объекта (выбор степени). 5
Недостатки: при неправильном выборе степени модель может быть перенасыщена. 5 Также в случае нелинейных данных полиномиальную регрессию трудно спроектировать. 3
Логистическая регрессия: 1
Преимущества: позволяет оценить вероятность, что событие произойдёт, на основе значений независимых переменных. 1 Особенно полезна в задачах классификации. 1
Недостатки: не подходит для выявления закономерностей между переменными. 4
Ансамбли (например, модели случайного леса и XGBoost): 4
Преимущества: хорошо подгоняются к нелинейным моделям и подходят для выявления влияния взаимодействий между переменными на цель. 4
Недостатки: плохо подходят для прогнозирования значений, находящихся за пределами диапазона данных, на основе которых происходит их обучение. 4
Нейронные сети: 3
Преимущества: эффективны при моделировании сложных нелинейных отношений, гибки в изучении почти любого типа переменных признаков. 3
Недостатки: из-за сложности модели её нелегко понять и реализовать. 3 Нейронные сети требуют тщательной настройки гиперпараметров и скорости обучения. 3 Для достижения высокой производительности нейронным сетям необходимо огромное количество данных, и в результате, как правило, нейросети уступают другим ML-алгоритмам в тех случаях, когда данных мало. 3
Деревья принятия решений и случайный лес: 3
Преимущества: подходят для изучения сложных нелинейных отношений, обычно достигают хорошей производительности, основные алгоритмы просты в понимании и реализации. 3
Недостатки: деревья принятия решений могут быть склонны к серьёзному переобучению, завершённая модель дерева решений может быть чрезмерно сложной и содержать ненужную структуру. 3