Задачи кластеризации данных в информационных системах решаются с помощью разных инструментов и алгоритмов, выбор которых зависит от набора данных, задачи кластеризации и заданных условий анализа. 1
Процесс решения задачи кластеризации включает следующие шаги: 5
- Приведение исходных данных к нужному виду (подготовка данных). 5
- Выбор меры близости. 5
- Выбор алгоритма кластеризации. 5
- Выполнение алгоритма. 5
- Представление полученных результатов. 5
- Интерпретация полученных результатов. 5
Некоторые методы кластеризации:
- Нисходящие алгоритмы. 1 Объекты сначала помещают в один кластер, а потом постепенно разделяют на кластеры всё меньше и меньше. 1
- Восходящие алгоритмы. 1 Каждый объект назначают кластером, а потом постепенно объединяют их до достижения нужной степени дробления. 1
- Алгоритмы квадратичной ошибки. 1 Они строят кластеры на основе математической формулы среднеквадратичной ошибки. 1 Самый популярный из таких алгоритмов — метод k-средних, который создаёт нужное число кластеров, максимально удалённых друг от друга. 1
- Системы искусственного интеллекта. 1 Позволяют разделить объекты с помощью нейронных сетей. 1 Чаще всего применяются, когда число кластеров неизвестно. 1
- Логический подход. 1 Данные делят по кластерам с помощью дерева решений. 1
Также данные можно разбить по кластерам вручную. 1 Если известен конкретный признак, который различается у разных кластеров, можно разделить все полученные данные по нему. 1