Основное различие между Rand Index и Adjusted Rand Index при оценке качества кластеризации заключается в том, что первый не учитывает случайность, а второй скорректирован с поправкой на неё. habr.com en.wikipedia.org
Rand Index измеряет количество пар элементов, отнесённых к одинаковым и разным кластерам относительно общего количества возможных пар в данных, игнорируя перестановки. habr.com Значения индекса расположены в диапазоне [0, 1], где 1 соответствует идеальной кластеризации. habr.com Однако Rand Index не гарантирует, что случайные присвоения меток получат значения, близкие к нулю. habr.com Это одна из причин, почему индекс зачастую даёт слишком оптимистичную оценку. habr.com
Adjusted Rand Index (ARI) — скорректированная оценка, которая не зависит от перестановок меток и их значений. habr.com Значения индекса определены в диапазоне [-1, 1]. habr.com Отрицательное значение будет указывать на то, что кластеризация хуже, чем если бы метки были присвоены случайным образом. habr.com
Таким образом, Adjusted Rand Index позволяет более точно оценить качество кластеризации, учитывая случайность присвоения меток. habr.com www.analyticsvidhya.com