Кодировка UTF-8 может занимать больше места на диске, чем другие кодировки, из-за непостоянной длины символов. 2
В UTF-8 символы с кодами 0–127 (из ASCII) кодируются одним байтом. 1 Другие символы Юникода кодируются большим числом байт — от 1 до 6, чем больше код символа, тем больше байт требуется. 1 Например, кириллица требует 2 байта на символ. 1
Однако есть исключения: если документ состоит только из символов ASCII (латинские буквы, цифры, знаки препинания и т. д.), то в кодировке UTF-8 он будет занимать столько же байтов, сколько и в любой другой. 5
Также есть кодировки, в которых на каждый символ отводится сразу 2 или 4 байта, например UTF-16 и UTF-32. 3 В таких кодировках те символы, на которых в UTF-8 хватило бы одного байта, занимают в 2–4 раза больше. 3