Кластеризация помогает обнаруживать аномалии в больших объёмах данных, сравнивая текущую активность объекта с активностью других объектов внутри своего кластера. 3
Некоторые преимущества такого подхода:
- Не пропускаются аномалии из-за объектов с высокой активностью. 3 Если использовать простое правило срабатывания, например, по самой высокой активности в обучающей выборке, то для некоторых объектов решение будет слишком лояльным, и можно пропустить аномальную активность. 3
- Можно детектировать аномалии, основываясь на характеристиках кластера. 3 Например, если за определённый промежуток времени какой-то объект не показал полный спектр своей активности, то можно получить эту информацию, основываясь не на его личной истории, а на истории его кластера — объектов, на которые он похож по активности. 3
- Можно детектировать аномалии, даже если объекта не было в выборке. 3 Пока не накоплено достаточного количества информации о новом объекте, его относят в кластер с низкой активностью. 3 Это позволяет своевременно реагировать на объекты, показывающие высокую активность сразу после своего появления в сети. 3
Таким образом, кластеризация позволяет не только искать аномалии, но и объяснять их происхождение для дальнейшего учёта в модели. 5