Метод разделения данных на группы для упрощения анализа называется кластеризация (кластерный анализ). 14
Суть метода — сгруппировать объекты так, чтобы внутри каждой группы элементы были максимально похожи, а между разными группами — заметно различались. 3
Некоторые цели кластеризации:
- Понимание. 1 Деление разрозненных данных на группы помогает аналитику понять, какие именно данные собраны. 1
- Выявление аномалий. 12 После кластеризации могут появиться отдельные данные, которые не относятся ни к одному из кластеров. 1 Их нужно изучить, чтобы понять, ошибка это или какой-то интересный феномен. 1
- Расширение. 1 Иногда при сборе информации у каких-то данных больше признаков, а у каких-то меньше. 1 Кластеризация поможет предположить отсутствующие признаки у других элементов кластера. 1
- Сжатие. 1 Если данных слишком много, можно поделить их на кластеры, усреднить и оставить по одному объекту на каждый кластер. 1 Это позволит в дальнейшем при анализе использовать меньше мощности. 1
Для кластеризации данных используют разные алгоритмы, выбор которых зависит от типа данных, объёма и цели анализа. 3 Некоторые из них: нисходящие, восходящие, алгоритмы квадратичной ошибки, системы искусственного интеллекта, логический подход. 1