Разница между методами distinct() и count() в PySpark заключается в их функциях:
Таким образом, distinct() фокусируется на удалении дубликатов, а count() — на подсчёте общего числа записей.
Чтобы посчитать уникальные значения, можно соединить эти две функции: distinct().count()
. 12