Отказоустойчивость в HDFS (распределённой файловой системе Hadoop) обеспечивается за счёт репликации данных. skyeng.ru www.geeksforgeeks.org
Суть процесса: каждый файл хранится в виде последовательности блоков, и каждый блок реплицируется на нескольких машинах в кластере. www.geeksforgeeks.org По умолчанию коэффициент репликации равен трём. www.geeksforgeeks.org
Что это означает: если блок на одном узле теряется из-за аппаратного сбоя, для восстановления утерянных данных используются другие копии. www.geeksforgeeks.org Такая избыточность данных гарантирует, что система может переносить сбои без какой-либо потери информации. www.geeksforgeeks.org
Кроме того, в HDFS есть и другие механизмы, обеспечивающие отказоустойчивость:
- MapReduce для обработки данных. www.geeksforgeeks.org Если машина, выполняющая задачу, выходит из строя, задача автоматически переназначается другой машине. www.geeksforgeeks.org
- YARN для управления ресурсами. www.geeksforgeeks.org Если узел обработки выходит из строя, YARN может перераспределить задачи на другие узлы, гарантируя непрерывное продолжение обработки. www.geeksforgeeks.org
- Высокая доступность NameNode. www.geeksforgeeks.org Современные кластеры Hadoop реализуют конфигурации высокой доступности, в которых развёрнуты два или более NameNode: активный и по крайней мере один резервный. www.geeksforgeeks.org Если активный NameNode выходит из строя, он переходит в режим ожидания без нарушения работы HDFS. www.geeksforgeeks.org
- Моментальные снимки для восстановления данных. www.geeksforgeeks.org Администраторы могут создавать моментальные снимки файловой системы на определённый момент времени. www.geeksforgeeks.org Эти снимки полезны для восстановления после случайного удаления или повреждения данных, тем самым повышая доступность данных и устойчивость системы. www.geeksforgeeks.org