Для шумных (разбросанных) данных можно рассмотреть следующие алгоритмы регрессии:
- Консенсус случайной выборки (RANSAC). 2 Это итерационный метод оценки параметров математической модели по набору данных, который содержит выбросы. 2 Основное предположение — данные состоят из «выбросов», то есть тех, распределение которых может быть объяснено некоторым набором параметров модели, хотя и может подвергаться шуму, и «выбросов», которые представляют собой данные, не соответствующие модели. 2
- Ридж-регрессия. 3 В этом методе используется регуляризация, которая помогает модели обращать внимание лишь на те признаки, которые действительно имеют значение, и избавляться от шумов. 3
- Регрессия лассо (L1-регуляризация). 3 Вместо того чтобы начислять штрафы за каждый признак в данных, штрафы начисляются лишь за признаки с большим значением коэффициентов. 3 К тому же лассо может обнулять значения коэффициентов, тем самым полностью убирая признак из датасета. 3
Выбор алгоритма зависит от конкретной задачи и условий.