Предвзятость при выборе данных для машинного обучения может возникать по разным причинам, среди них:
- Несбалансированность или ограниченность данных. 1 Если для обучения модели используют в основном один вид объектов, сцен или людей, то модель обучается паттернам, которые хорошо работают только в этих случаях. 1 Например, модель, обученная на изображениях дорожного движения в больших городах, может неправильно классифицировать необычные дорожные разметки или не обнаружить типы автомобилей, которые она никогда раньше не видела. 1
- Недопредставленность определённых групп или классов. 1 Это могут быть демографические группы, категории объектов или условия окружающей среды. 1 Например, модель распознавания лиц, обученная в основном на одной демографической группе, может не справиться с точными предсказаниями для всех пользователей. 1
- Ошибки в процессе маркировки. 4 Смещение данных может возникнуть при использовании разнородной команды аннотаторов или когда для маркировки требуется определённый контекст. 4 Например, если работать с различными кухнями разных стран мира, то аннотатор в Великобритании может не знать кулинарных предпочтений азиатов, и полученный набор данных будет иметь уклон в пользу английского языка. 4
- Социальные предрассудки или исторические диспропорции. 2 Например, алгоритм, обученный на наборе данных с большинством неплательщиков кредитов мужского пола, может с большей вероятностью отказать в выдаче кредитов будущим заявителям мужского пола, даже если их кредитоспособность аналогична кредитоспособности женщин. 2
Предвзятость в машинном обучении может происходить на различных этапах процесса, включая сбор данных, подготовку данных, выбор модели и развёртывание модели. 2