Несбалансированная классификация данных возникает, когда в обучающем наборе один класс представлен значительно больше другого. vk.com Это может затруднить алгоритмам машинного обучения научиться различать классы. vk.com
Некоторые особенности несбалансированной классификации данных:
- Предвзятые модели. vk.com Алгоритмы машинного обучения по умолчанию оптимизируют сбалансированные показатели или функции. vk.com Несбалансированные данные могут привести к созданию моделей, которые более точно предсказывают класс большинства, игнорируя класс меньшинства. vk.com
- Неравномерное распределение классов. vk.com Класс большинства доминирует в наборе данных. vk.com Это может привести к отсутствию разнообразия в данных и затруднить изучение моделей, лежащих в основе класса меньшинства. vk.com
- Различная стоимость ошибок неправильной классификации. vk.com Ошибки могут иметь разную стоимость в зависимости от приложения. vk.com Например, ложноотрицательный результат может быть опасен для жизни при медицинских диагнозах, а ложноположительный результат может вызвать только неудобства. vk.com
- Переобучение. itstd-journal.ru Алгоритм машинного обучения может переобучиться на более представленный класс, избегая корректное распознавание менее представленного класса. itstd-journal.ru
- Невозможность обучения. itstd-journal.ru Для некоторых алгоритмов машинного обучения дисбаланс классов может стать причиной невозможности обучения. itstd-journal.ru
- Неадекватная оценка. itstd-journal.ru Использование метрик оценки моделей машинного обучения, которые не учитывают дисбаланс классов, может привести к неадекватной оценке модели. itstd-journal.ru
- Низкая устойчивость. itstd-journal.ru Если объекты разных классов распределены неравномерно, то алгоритмы машинного обучения могут быть неустойчивы к изменениям в распределении данных. itstd-journal.ru