Вопросы к Поиску с Алисой
Методы describe и summarize в PySpark отличаются по своей функциональности. stackoverflow.com
describe автоматически показывает базовую статистику для всех числовых столбцов, включая количество ненулевых записей, среднее значение, стандартное отклонение, минимальное и максимальное значение для каждого числового столбца. stackoverflow.com www.getorchestra.io Если не указаны столбцы, статистика рассчитывается для всех числовых или строковых столбцов. spark.apache.org
summarize позволяет явно указать, какую статистику нужно вывести. stackoverflow.com Например, можно настроить вывод кварталей распределения данных и только стандартного отклонения. stackoverflow.com Этот метод может работать и с нечисловыми столбцами, в то время как describe не может показать статистику для нечисловых полей. stackoverflow.com
Таким образом, describe даёт быстрый обзор статистики для числовых полей, а summarize позволяет настроить вывод и указать, какую статистику рассчитать. stackoverflow.com