Символы Юникода представлены по-разному в зависимости от их кодовой точки в UTF-8 для того, чтобы сэкономить память и повысить скорость обработки. 4
Символы с кодами меньше 128 представляются одним байтом. 4 Так как в Юникоде они повторяют ASCII, то текст, написанный только этими символами, будет являться текстом в ASCII — это позволяет избежать лишних конвертаций. 4
Символы с кодами от 128 до 65536 кодируются двумя байтами. 4 Аналогично существуют 3-байтные и 4-байтные коды. 4
UTF-8 позволяет указать один и тот же символ несколькими способами, но правильным считается только наиболее короткий из них. 2 Остальные формы, называемые overlong sequence, отвергаются по соображениям безопасности. 2