При переходе на Unicode объём текстовой информации увеличивается, потому что для представления некоторых символов требуется больше байт, чем в других кодировках. 25
Например, в UTF-8 для некоторых алфавитов, отличных от латинского, многие символы требуют трёх байт вместо двух. 2 Также в Unicode есть заголовок, который показывает, что текстовый файл закодирован в этой кодировке. 1
При этом стоит учитывать, что для уменьшения занимаемого пространства можно использовать алгоритмы сжатия, которые устраняют лишнюю энтропию и избыточность. 2
Кроме того, в зависимости от набора символов, строка в кодировке UTF-8 может занимать от 10 до 30 байт, а для отдельных языков — и до 50 байт. 5