Основные принципы сжатия файлов при работе с текстовыми документами:
- Сжатие без потерь. 14 Подразумевает снижение объёма выходного потока информации без изменения её информативности, то есть без потери информационной структуры. 4
- Устранение избыточности. 1 Часто встречающиеся символы кодируются меньшим числом бит, редко встречающиеся — большим. 1
- Замена повторяющихся последовательностей байтов более короткими кодами. 2 При этом составляется таблица соответствия, которая в дальнейшем используется для восстановления данных в первоначальном виде. 2
- Предварительный просмотр и анализ исходных данных. 3 Это позволяет индивидуально настроить алгоритм сжатия на особенности обрабатываемого материала. 3
Существует два основных способа сжатия: 2
- Статистический. 2 Каждому символу присваивается код, основанный на вероятности его появления в тексте. 2 Высоковроятным символам (наиболее часто встречающимся в сообщениях) приписываются короткие коды и наоборот. 2
- Словарный. 2 Группы последовательных символов или «фраз» заменяются кодом. 2 Заменённая фраза может быть найдена в некотором, ранее сформированном «словаре». 2