Несколько форматов записи объёмов данных существует из-за разных задач, которые необходимо решить при работе с большими объёмами информации. bigdataschool.ru
Некоторые форматы предназначены для общего использования, другие разработаны для более специфических вариантов, а третьи созданы с учётом конкретных характеристик данных. habr.com
Некоторые примеры форматов и их особенности:
- Линейные (строковые). bigdataschool.ru Строки данных одного типа хранятся вместе, образуя непрерывное хранилище. bigdataschool.ru Такие форматы, например AVRO и Sequence, подходят для потоковой записи, так как в случае сбоя информация может быть восстановлена с последней точки синхронизации. bigdataschool.ru Однако линейный способ хранения данных обусловливает пониженную скорость операций чтения и выполнении избирательных запросов, а также больший расход дискового пространства. bigdataschool.ru
- Колоночные (столбцовые). bigdataschool.ru Файл разрезается на несколько столбцов данных, которые хранятся вместе, но могут быть обработаны независимо друг от друга. bigdataschool.ru Такой метод хранения информации позволяет пропускать ненужные столбцы при чтении данных, что существенно ускоряет чтение. bigdataschool.ru Однако такой формат чтения и записи занимает больше места в оперативной памяти, поскольку, чтобы получить столбец из нескольких строк, кэшируется каждая строка. bigdataschool.ru
Таким образом, выбор формата данных зависит от практических задач, которые необходимо решить с его помощью в рамках функциональных возможностей конкретной Big Data системы. bigdataschool.ru