Да, работать со Spark DataFrames в Python можно. 18 Фреймворк Apache Spark предоставляет программные интерфейсы для языков Java, Scala, Python и R, интерфейс для Python называется PySpark. 18
Чтобы написать функцию для обработки всех строк Spark DataFrame, можно использовать метод map(). 46 Для этого нужно преобразовать DataFrame в RDD (устойчивый распределённый набор данных). 6
Ещё один вариант — использовать метод collect(). 6 Он отправляет все данные с рабочих узлов в программу драйвера, а затем позволяет итерировать по строкам. 6
Также для итерирования по строкам DataFrame можно применить метод foreach(). 610 Он заставляет рабочие узлы кластера итерировать по каждой строке (как по объекту Row) и применять к ней функцию на рабочем узле, где она размещена. 6