Несколько способов улучшить производительность агломеративной кластеризации:
- Использовать быстрый вариант метода Уорда. 4 Он сокращает количество вычислений расстояния и требует меньше памяти. 4 Метод работает за счёт ограничения слияний соседними узлами на новом полносвязном графе, который состоит из нескольких приближённых решений задачи коммивояжёра (TSP). 4
- Распараллелить операции алгоритма кластеризации. 5 Для этого можно использовать, например, модель MapReduce. 5 Она позволяет увеличить скорость обработки за счёт распараллеливания простейших операций. 5
- Найти компромисс между качеством кластеризации и временем выполнения. 4 Например, при умеренном ухудшении качества (NMI от 0,90 до 0,80) коэффициент ускорения может дополнительно повышаться. 4
Также для улучшения производительности агломеративной кластеризации можно искать лучшие показатели сходства для конкретного приложения. 4