Отказоустойчивость в HDFS (распределённой файловой системе Hadoop) обеспечивается за счёт репликации данных. 12
Суть процесса: каждый файл хранится в виде последовательности блоков, и каждый блок реплицируется на нескольких машинах в кластере. 2 По умолчанию коэффициент репликации равен трём. 2
Что это означает: если блок на одном узле теряется из-за аппаратного сбоя, для восстановления утерянных данных используются другие копии. 2 Такая избыточность данных гарантирует, что система может переносить сбои без какой-либо потери информации. 2
Кроме того, в HDFS есть и другие механизмы, обеспечивающие отказоустойчивость:
- MapReduce для обработки данных. 2 Если машина, выполняющая задачу, выходит из строя, задача автоматически переназначается другой машине. 2
- YARN для управления ресурсами. 2 Если узел обработки выходит из строя, YARN может перераспределить задачи на другие узлы, гарантируя непрерывное продолжение обработки. 2
- Высокая доступность NameNode. 2 Современные кластеры Hadoop реализуют конфигурации высокой доступности, в которых развёрнуты два или более NameNode: активный и по крайней мере один резервный. 2 Если активный NameNode выходит из строя, он переходит в режим ожидания без нарушения работы HDFS. 2
- Моментальные снимки для восстановления данных. 2 Администраторы могут создавать моментальные снимки файловой системы на определённый момент времени. 2 Эти снимки полезны для восстановления после случайного удаления или повреждения данных, тем самым повышая доступность данных и устойчивость системы. 2