Кодировка UTF-8 решает проблему неэффективного использования памяти за счёт переменной длины кодирования: от 1 до 4 байтов на символ. 1
Например, латинские буквы и цифры в UTF-8 закодированы под один байт, в то время как китайские иероглифы — под два байта. 3 Это позволяет экономить память для текстов на латинице и других языков с малыми наборами знаков. 1
Однако для некоторых символов (например, китайских и японских) UTF-8 может быть неэффективен по объёму. 1
Также стоит учитывать, что при использовании кодировки UTF-8 переменной длины возникает небольшое снижение производительности при декодировании. 5 Это связано с тем, что приходится эффективно перебирать массив закодированных байтов, идентифицирующий начало каждого символа. 5