Алгоритм, который определяет группы данных с элементами, имеющими схожие свойства, работает следующим образом: 5
- Выбирается подходящий показатель расстояния, который количественно определяет сходство между точками данных. 5 Наиболее часто используемые показатели — евклидово расстояние, манхэттенское расстояние и косинусное сходство. 5
- Как только матрица расстояний установлена, алгоритм начинает создавать кластеры путём итеративного объединения или разделения точек данных на основе их близости. 5 Это приводит к формированию отдельных групп, каждая из которых представляет уникальное подмножество данных. 5
Например, алгоритм k-means состоит из четырёх шагов: 1
- Задаётся число кластеров k, которое должно быть сформировано из объектов исходной выборки. 1
- Случайным образом выбирается k записей, которые будут служить начальными центрами кластеров. 1
- Для каждой записи исходной выборки определяется ближайший к ней центр кластера. 1
- Производится вычисление центроидов — центров тяжести кластеров. 1 Это делается путём определения среднего для значения каждого признака всех записей в кластере. 1 Затем старые центры кластеров смещаются в его центроид. 1 Таким образом, центроиды становятся новыми центрами кластеров для следующей итерации алгоритма. 1
- Остановка алгоритма производится, когда границы кластеров и расположение центроидов перестаёт изменяться, то есть на каждой итерации в каждом кластере остаётся один и тот же набор записей. 1