Методы describe и summarize в PySpark отличаются по своей функциональности. 1
describe автоматически показывает базовую статистику для всех числовых столбцов, включая количество ненулевых записей, среднее значение, стандартное отклонение, минимальное и максимальное значение для каждого числового столбца. 13 Если не указаны столбцы, статистика рассчитывается для всех числовых или строковых столбцов. 4
summarize позволяет явно указать, какую статистику нужно вывести. 1 Например, можно настроить вывод кварталей распределения данных и только стандартного отклонения. 1 Этот метод может работать и с нечисловыми столбцами, в то время как describe не может показать статистику для нечисловых полей. 1
Таким образом, describe даёт быстрый обзор статистики для числовых полей, а summarize позволяет настроить вывод и указать, какую статистику рассчитать. 1