Преимущества парадигмы MapReduce в сравнении с другими методами обработки данных:
- Распределённое выполнение операций предварительной обработки (map) и свёртки (reduce) большого объёма данных. bigdataschool.ru Функции map работают независимо друг от друга и могут выполняться параллельно на разных узлах кластера. bigdataschool.ru
- Быстрота обработки больших объёмов данных за счёт распределения операций. bigdataschool.ru Например, всего за пару часов MapReduce может отсортировать целый петабайт данных. bigdataschool.ru
- Отказоустойчивость и оперативное восстановление после сбоев. bigdataschool.ru При отказе рабочего узла, производящего операцию map или reduce, его работа автоматически передаётся другому рабочему узлу в случае доступности входных данных для проводимой операции. bigdataschool.ru
Недостатки парадигмы MapReduce:
- Невысокая производительность. otus.ru Модель MapReduce выполняет вычисления за два этапа: разделяет данные на части, передавая их на кластерные узлы для обработки, а потом каждый узел производит обработку данных с отправкой результата на главный узел, где и формируется итоговый результат распределённых вычислений. otus.ru При этом MapReduce регулярно обращается к диску, что влечёт задержки в обработке информации. otus.ru
- Ограниченность применения. bigdataschool.ru Высокие задержки распределённых вычислений не позволяют использовать классический MapReduce для потоковой обработки в режиме реального времени, повторяющихся запросов и итеративных алгоритмов на одном и том же датасете, как в задачах машинного обучения. bigdataschool.ru
- Повышенная сложность. otus.ru Для написания хорошего решения на MapReduce понадобится довольно высокий уровень экспертности. otus.ru На практике даже относительно опытный инженер может легко допустить ошибку либо написать неэффективный алгоритм. otus.ru
Выбор между парадигмой MapReduce и другими методами обработки данных зависит от конкретных задач и требований к производительности и функциональности.