DBSCAN помогает в сегментации данных без предварительной классификации, автоматически определяя количество кластеров на основе локальных характеристик плотности данных. 12
Основная идея алгоритма: точки, окружённые областями высокой плотности, объединяются в один кластер. 1 При этом выделяются следующие типы точек: 1
- Ключевые точки (core points) — в их окрестности находится минимальное количество соседних точек (minPts) на расстоянии не более ε (эпсилон). 1
- Граничные точки (border points) — находятся на границе кластера, имеют меньше minPts соседей в радиусе ε, но при этом достижимы из ключевых точек. 1
- Шумовые точки (noise points) — изолированные точки, не подходящие под определение ключевых или граничных. 1
Некоторые преимущества DBSCAN:
- Обнаружение кластеров произвольной формы. 1 В отличие от K-means, который ищет сферические структуры, DBSCAN способен выявлять кластеры любой геометрической конфигурации. 1
- Устойчивость к выбросам. 1 Алгоритм естественным образом идентифицирует и отсеивает шумовые точки, что крайне полезно для реальных данных с ошибками измерений. 1
- Стабильность результатов. 1 Не использует случайную инициализацию, поэтому выдаёт одинаковые результаты при одинаковых параметрах. 1
- Масштабируемость. 1 С использованием пространственных индексов может эффективно работать на больших наборах данных. 1