Вопросы к Поиску с Алисой
При переходе на Unicode объём текстовой информации увеличивается, потому что для представления некоторых символов требуется больше байт, чем в других кодировках. habr.com www.flenov.info
Например, в UTF-8 для некоторых алфавитов, отличных от латинского, многие символы требуют трёх байт вместо двух. habr.com Также в Unicode есть заголовок, который показывает, что текстовый файл закодирован в этой кодировке. otvet.mail.ru
При этом стоит учитывать, что для уменьшения занимаемого пространства можно использовать алгоритмы сжатия, которые устраняют лишнюю энтропию и избыточность. habr.com
Кроме того, в зависимости от набора символов, строка в кодировке UTF-8 может занимать от 10 до 30 байт, а для отдельных языков — и до 50 байт. www.flenov.info