Преимущества использования k-means при кластеризации данных:
- простота и быстрота реализации; habr.com
- эффективность при работе с большими наборами данных; habr.com
- возможность применения в различных областях, таких как сегментация клиентов, обработка изображений, анализ социальных сетей и другие. habr.com
Недостатки:
- зависимость от выбора числа кластеров (k); habr.com
- чувствительность к начальной инициализации центроидов; habr.com
- плохая справляемость с данными, содержащими выбросы или сложные формы кластеров, например с перекрывающимися или нелинейными кластерами; habr.com
- не подходит для категориальных данных без предварительного преобразования. habr.com
Также k-means лучше всего работает с кластерами круглой формы и одинакового размера, что делает его неподходящим для кластеров неправильной формы или неравномерно распределённых кластеров. www.geeksforgeeks.org