Разница между hash и range partitioning в Spark заключается в том, как данные делятся на части для параллельной обработки. 2
Hash partitioning — стратегия по умолчанию в Spark. 12 Она работает так: к ключам применяется хэш-функция, а затем хэш-значения делятся на количество частей. 1 Эта стратегия гарантирует, что записи с одинаковым ключом попадают в одну и ту же часть. 1
Range partitioning используется для отсортированных или упорядоченных данных. 2 В этом случае данные делятся на непрерывные диапазоны, и каждый диапазон соответствует части. 2 Эта стратегия полезна, когда нужно выполнить такие операции, как сортировка или фильтрация по диапазону, так как позволяет сократить количество перемещений данных. 1