Методы работы с распределёнными наборами данных (RDD) в Spark делятся на два вида: действия и преобразования. spark-school.ru
Действия — это операции, которые возвращают конкретное значение. spark-school.ru Некоторые из них:
- Collect() — извлекает все элементы RDD в список на драйвере. dzen.ru
- First() — возвращает первый элемент RDD. dzen.ru
- Count() — возвращает количество элементов в RDD. dzen.ru
- SaveAsTextFile() — сохраняет RDD в текстовом формате. dzen.ru
- Take(n) — возвращает в виде массива или списка первые n элементов. spark-school.ru
Преобразования — это операции над коллекциями данных RDD, результатом которых служат новые RDD. spark-school.ru Некоторые из них:
- Filter() — фильтрует элементы RDD по определённому условию. dzen.ru
- Map() — преобразует каждый элемент RDD в новый элемент. dzen.ru
- FlatMap() — преобразует каждый элемент RDD в несколько элементов. dzen.ru
- Reduce() — сводит значения RDD к одному элементу. dzen.ru