Дисперсия используется в машинном обучении для оценки точности моделей, показывая, насколько предсказания модели изменятся, если обучать её на разных наборах данных внутри одного и того же распределения. 1
Низкая дисперсия означает, что модель менее чувствительна к изменениям в обучающих данных и может выдавать согласованные оценки целевой функции с использованием различных подмножеств данных из одного и того же распределения. 2
Высокая дисперсия указывает на то, что модель очень чувствительна к изменениям в обучающих данных и может привести к значительным изменениям в оценке целевой функции при обучении на разных подмножествах данных из одного и того же распределения. 2 Такие модели хорошо работают на тренировочных данных, но плохо — на новых, неизвестных данных. 1
Для уменьшения дисперсии в машинном обучении используют, например, регуляризацию, которая заключается во введении дополнительных ограничений или штрафов на величину и/или сложность модели. 1 Также для этого применяют бэггинг: создают множественные подвыборки из обучающих данных, на каждой подвыборке обучается отдельная модель, а прогнозы от всех моделей агрегируются для получения окончательного результата. 1