Вопросы к Поиску с Алисой
Да, работать со Spark DataFrames в Python можно. yandex.ru yandex.ru Фреймворк Apache Spark предоставляет программные интерфейсы для языков Java, Scala, Python и R, интерфейс для Python называется PySpark. yandex.ru yandex.ru
Чтобы написать функцию для обработки всех строк Spark DataFrame, можно использовать метод map(). stackoverflow.com www.skytowner.com Для этого нужно преобразовать DataFrame в RDD (устойчивый распределённый набор данных). www.skytowner.com
Ещё один вариант — использовать метод collect(). www.skytowner.com Он отправляет все данные с рабочих узлов в программу драйвера, а затем позволяет итерировать по строкам. www.skytowner.com
Также для итерирования по строкам DataFrame можно применить метод foreach(). www.skytowner.com sparkbyexamples.com Он заставляет рабочие узлы кластера итерировать по каждой строке (как по объекту Row) и применять к ней функцию на рабочем узле, где она размещена. www.skytowner.com