Вопросы к Поиску с Алисой
Дисперсия и смещение данных считаются основными проблемами при анализе данных, потому что они приводят к ошибкам прогнозирования. blog.skillfactory.ru
Смещение — это погрешность оценки, возникающая в результате ошибочного предположения в алгоритме обучения. ru.wikipedia.org В результате большого смещения алгоритм может пропустить связь между признаками и выводом (недообучение). ru.wikipedia.org Например, если исследователь собирал выборку и выбрал только похожие по какому-то фактору значения, а остальные проигнорировал. blog.skillfactory.ru
Дисперсия — это ошибка чувствительности к малым отклонениям в тренировочном наборе. ru.wikipedia.org При высокой дисперсии алгоритм может как-то трактовать случайный шум в тренировочном наборе, а не желаемый результат (переобучение). ru.wikipedia.org Высокая дисперсия может возникать из-за недостаточного количества данных для обучения модели. habr.com
Таким образом, из-за смещения и дисперсии нельзя спрогнозировать всё точно: чем выше эти показатели, тем сильнее прогноз может расходиться с реальным результатом. blog.skillfactory.ru
Кроме того, существует компромисс между смещением и дисперсией, когда снижение одного показателя обычно увеличивает другой. habr.com Поэтому при анализе данных необходимо найти баланс между этими показателями, чтобы минимизировать общую ошибку модели. habr.com