Смещение в моделировании данных — это то, насколько предсказания модели далеки от правды. 1 Это погрешность оценки, возникающая в результате ошибочного предположения в алгоритме обучения. 4 Высокое смещение может привести к тому, что алгоритм пропустит связь между признаками и выводом (недообучение). 4
Дисперсия — это степень, в которой предсказания модели различаются между итерациями. 1 Это ошибка чувствительности к небольшим колебаниям в тренировочном наборе. 1 Высокая дисперсия может привести к тому, что алгоритм моделирует случайный шум в данных для обучения, а не предполагаемые выходы (происходит переобучение). 1
Смещение и дисперсия обратно зависимы. 3 Если корректировать выборку, чтобы уменьшить смещение, растёт дисперсия. 3 Если же стараться уменьшить дисперсию, растёт смещение. 3 Поэтому одна из задач дата-сайентиста — найти компромисс, баланс между смещением и дисперсией, чтобы получить близкий к истине результат. 3