Ограничения алгоритма k-средних при работе с категориальными данными можно преодолеть с помощью предварительного преобразования. 2
Алгоритм k-средних используется для кластеризации данных числового типа и не подходит для категориальных данных без преобразования. 24
Некоторые способы преобразования:
- Однократное кодирование. 1 Переменную, которая может принимать несколько значений, разделяют на несколько переменных, каждая из которых может принимать только одно из двух значений, например 1 или 0. 1 Это увеличивает размерность пространства, но позволяет использовать любой алгоритм кластеризации. 1
- Присвоение категориям числового значения. 1 Этот способ применяют, если категориальное значение не равноудалено и может быть упорядочено. 1
Кроме того, для работы с категориальными данными существуют другие методы, например алгоритм CLOPE. 4