Алгоритм k-means чувствителен к выбору начальных центров кластеров, потому что случайная инициализация центров на первом шаге может приводить к плохим кластеризациям. www.machinelearning.ru
Одна из потенциальных проблем при выборе начального положения центров — как, выбирая центры из случайного распределения, не попасть в область пространства признаков, где нет точек выборки. education.yandex.ru Базовое решение — просто выбрать в качестве центров какие-то из объектов выборки. education.yandex.ru
Вторая потенциальная проблема — кучное размещение центров. education.yandex.ru В этом случае их начальное положение с большой вероятностью окажется далёким от итогового положения центров кластеров. education.yandex.ru Например, для таких изначальных положений центров можно получить неправильную кластеризацию. education.yandex.ru Чтобы бороться с этим явлением, выгодно брать максимально удалённые друг от друга центры. education.yandex.ru
Для формирования начального приближения можно выделить k наиболее удалённых точек выборки: первые две точки выделяются по максимуму всех попарных расстояний, каждая следующая точка выбирается так, чтобы расстояние от неё до ближайшей уже выделенной было максимально. www.machinelearning.ru