Алгоритм k-means чувствителен к выбору начальных центров кластеров, потому что случайная инициализация центров на первом шаге может приводить к плохим кластеризациям. 3
Одна из потенциальных проблем при выборе начального положения центров — как, выбирая центры из случайного распределения, не попасть в область пространства признаков, где нет точек выборки. 1 Базовое решение — просто выбрать в качестве центров какие-то из объектов выборки. 1
Вторая потенциальная проблема — кучное размещение центров. 1 В этом случае их начальное положение с большой вероятностью окажется далёким от итогового положения центров кластеров. 1 Например, для таких изначальных положений центров можно получить неправильную кластеризацию. 1 Чтобы бороться с этим явлением, выгодно брать максимально удалённые друг от друга центры. 1
Для формирования начального приближения можно выделить k наиболее удалённых точек выборки: первые две точки выделяются по максимуму всех попарных расстояний, каждая следующая точка выбирается так, чтобы расстояние от неё до ближайшей уже выделенной было максимально. 3