Система разделения и параллельной обработки данных в MapReduce работает в три этапа: 2
- Фаза Map. 2 На этом этапе входные датасеты разбиваются на части, которые затем обрабатываются функциями Map. 2 Каждая из них обрабатывает свой блок и выдаёт промежуточные пары «ключ-значение». 2 Это позволяет выполнить параллельную обработку, значительно увеличивая производительность системы. 2
- Фаза Shuffle and Sort (перетасовка и сортировка). 2 После завершения работы Map начинается этап Shuffle and Sort. 2 Промежуточные пары «ключ-значение», сгенерированные на этапе Map, перетасовываются и сортируются по ключам. 2 Результатом этой фазы являются датасеты, каждый из которых состоит из уникального ключа и всех значений, сопоставленных с этим ключом. 2
- Фаза Reduce. 2 Затем каждый из этих датасетов передаётся соответствующей функции Reduce. 2 Каждая из них обрабатывает свои данные независимо и параллельно, выдавая результат в виде пары «ключ-значение», которая становится частью окончательного набора информации. 2
Получившийся после прохождения всех необходимых шагов результат — это и есть решение исходной задачи. 5