Алгоритм, который определяет группы данных с элементами, имеющими схожие свойства, работает следующим образом: falconediting.com
- Выбирается подходящий показатель расстояния, который количественно определяет сходство между точками данных. falconediting.com Наиболее часто используемые показатели — евклидово расстояние, манхэттенское расстояние и косинусное сходство. falconediting.com
- Как только матрица расстояний установлена, алгоритм начинает создавать кластеры путём итеративного объединения или разделения точек данных на основе их близости. falconediting.com Это приводит к формированию отдельных групп, каждая из которых представляет уникальное подмножество данных. falconediting.com
Например, алгоритм k-means состоит из четырёх шагов: basegroup.ru
- Задаётся число кластеров k, которое должно быть сформировано из объектов исходной выборки. basegroup.ru
- Случайным образом выбирается k записей, которые будут служить начальными центрами кластеров. basegroup.ru
- Для каждой записи исходной выборки определяется ближайший к ней центр кластера. basegroup.ru
- Производится вычисление центроидов — центров тяжести кластеров. basegroup.ru Это делается путём определения среднего для значения каждого признака всех записей в кластере. basegroup.ru Затем старые центры кластеров смещаются в его центроид. basegroup.ru Таким образом, центроиды становятся новыми центрами кластеров для следующей итерации алгоритма. basegroup.ru
- Остановка алгоритма производится, когда границы кластеров и расположение центроидов перестаёт изменяться, то есть на каждой итерации в каждом кластере остаётся один и тот же набор записей. basegroup.ru