Основной недостаток алгоритма K-ближайших соседей (KNN) при работе с большими данными — высокие вычислительные затраты. cbcyd.github.io www.easiio.com
Это связано с тем, что алгоритму необходимо вычислить расстояние между новым экземпляром и всеми экземплярами в обучающих данных, чтобы найти ближайших соседей. cbcyd.github.io
Кроме того, некоторые другие недостатки KNN при работе с большими данными:
- Чувствительность к нерелевантным функциям. cbcyd.github.io Они могут увеличить расстояние между экземплярами и привести к неправильным прогнозам. cbcyd.github.io
- Переменное качество результатов. cbcyd.github.io Оно зависит от значения K и распределения данных. cbcyd.github.io Найти оптимальное значение K и оценить производительность KNN на основе данных может быть непросто. cbcyd.github.io
- Интенсивное использование памяти. cbcyd.github.io KNN хранит все экземпляры обучающих данных в памяти, что может быть проблематичным для больших наборов данных и ограничивать масштабируемость алгоритма. cbcyd.github.io