Преимущества параллельного чтения данных из Parquet-файлов:
- Повышение производительности. habr.com wesmckinney.com Для данных с низкой энтропией декомпрессия и декодирование сильно зависят от процессора. habr.com Поскольку всю работу выполняет C++, не возникает проблем с параллелизмом, и можно добиться значительного повышения скорости. habr.com
- Возможность считывать не весь файл, а лишь необходимые столбцы. bigdataschool.ru На практике для аналитических задач в конкретный момент нужны лишь несколько колонок. bigdataschool.ru
- Более эффективное сжатие и кодирование данных. bigdataschool.ru Колоночная структура Parquet упрощает сжатие и кодирование данных за счёт их однородности и похожести. bigdataschool.ru
Это достигается благодаря многоуровневой системе разбиения файлов на части, которая позволяет параллельно исполнять важные операции (MapReduce, ввод-вывод, кодирование и сжатие). bigdataschool.ru