Некоторые принципы, которые используются для сжатия текстовых данных в информационных системах:
- Устранение избыточности. 1 Простейший пример избыточности — повторение в тексте фрагментов (например, слов естественного или машинного языка). 1 Такая избыточность устраняется заменой повторяющейся последовательности ссылкой на уже закодированный фрагмент с указанием его длины. 1
- Замена часто встречающихся данных короткими кодовыми словами, а редких — длинными. 1 Это достигается с помощью энтропийного кодирования. 1
- Использование модели источника данных. 1 В её основе лежат сведения о том, какого рода данные сжимаются. 1 Модель избыточности может быть статической, неизменной для всего сжимаемого сообщения, либо строиться или параметризоваться на этапе сжатия (и восстановления). 1
- Сжатие без потерь. 14 Путем обратного действия (разархивации) данные восстанавливаются полностью без каких-либо изменений. 4
- Эффективное кодирование. 3 При такой обработке минимизируется среднее количество двоичных знаков, требующихся для кодирования одного символа сообщения. 3 Это позволяет уменьшить общую длину передаваемого кодового сообщения и, соответственно, времени передачи по каналам связи. 3