Некоторые методы кодирования, которые применяются для уменьшения размера данных в базах данных:
- Подавление одинаковых значений (Common Value Suppression). 2 Позволяет избавиться от избыточности, когда столбец хранит повторяющиеся значения. 2 Например, префикс кодирования заменяет последовательные одинаковые значения в начале столбца путём хранения количества повторений. 2
- Кодирование редких значений (sparse-coding). 2 Достигается хорошее сжатие, если много уникальных значений рассредоточено по всему столбцу. 2 Тогда исходный столбец превращается в последовательность нулей и единиц. 2
- Кодирование по длинам серий (Run-Length Encoding). 12 Схема кодирования, в которой значение заменяется на количество повторений этого значения подряд. 12 На практике в базе данных хранится индекс последней строки значения. 12
- Кластерное кодирование (Cluster Coding). 12 Работает на одинаковых по размеру блоках, содержащих несколько различных значений. 12 Блоки с одним уникальным значением сжимаются при помощи хранения только этого значения в отдельной последовательности. 12
- Непрямое кодирование (Indirect Coding). 2 Работает на блоках данных. 2 Дополнительные словари на уровне блоков позволяют сузить диапазон значений, которые должны быть закодированы, и уменьшают размеры словаря. 2
- Битовое сжатие (Bit Compression). 12 Использует только необходимое количество битов для представления значений. 12 Значения разбиваются на части фиксированной ширины, причём размер части определяется по величине наибольшего значения, которое нужно закодировать. 12
- Байтовое кодирование (Variable Byte Coding). 12 Использует байты, а не биты как основную единицу для создания частей памяти. 12 Значения разделяются на части по 7 бит, и каждая часть хранится в байте. 12