Парадигма MapReduce — это модель распределённых вычислений от компании Google, используемая в технологиях Big Data для параллельных вычислений над очень большими (до нескольких петабайт) наборами данных в компьютерных кластерах. 5
Суть MapReduce состоит в разделении информационного массива на части, параллельной обработки каждой части на отдельном узле и финального объединения всех результатов. 5
Основные функции парадигмы MapReduce:
- Map — предварительная обработка входных данных. 4 Главный узел кластера получает данные, делит их на части и передаёт рабочим узлам. 4 Именно на этом этапе распределённые фрагменты данных проходят необходимую обработку: фильтрацию, сортировку, анализ и так далее. 4
- Reduce — процесс свёртки предварительно обработанных данных. 4 Главный узел получает ответы от рабочих узлов и на их основе формирует решение задачи, то есть итоговый результат. 4