Методы работы с распределёнными наборами данных (RDD) в Spark делятся на два вида: действия и преобразования. 2
Действия — это операции, которые возвращают конкретное значение. 2 Некоторые из них:
- Collect() — извлекает все элементы RDD в список на драйвере. 1
- First() — возвращает первый элемент RDD. 1
- Count() — возвращает количество элементов в RDD. 1
- SaveAsTextFile() — сохраняет RDD в текстовом формате. 1
- Take(n) — возвращает в виде массива или списка первые n элементов. 2
Преобразования — это операции над коллекциями данных RDD, результатом которых служат новые RDD. 2 Некоторые из них:
- Filter() — фильтрует элементы RDD по определённому условию. 1
- Map() — преобразует каждый элемент RDD в новый элемент. 1
- FlatMap() — преобразует каждый элемент RDD в несколько элементов. 1
- Reduce() — сводит значения RDD к одному элементу. 1