Принцип работы MapReduce заключается в разделении информационного массива на части, параллельной обработке каждой части на отдельном узле и финальном объединении всех результатов. 1
Проще говоря, MapReduce разбивает входные данные на фрагменты и распределяет их по разным машинам. 2 Входные фрагменты состоят из пар «ключ-значение». 2 Задачи параллельной карты обрабатывают фрагментированные данные на машинах в кластере. 2 Выходные данные сопоставления затем служат входными данными для этапа сокращения. 2 Задача уменьшения объединяет результат в вывод конкретной пары «ключ-значение» и записывает данные в HDFS. 2
В основе работы MapReduce лежат две функции: