Вопросы к Поиску с Алисой
Символы Юникода представлены по-разному в зависимости от их кодовой точки в UTF-8 для того, чтобы сэкономить память и повысить скорость обработки. tproger.ru
Символы с кодами меньше 128 представляются одним байтом. tproger.ru Так как в Юникоде они повторяют ASCII, то текст, написанный только этими символами, будет являться текстом в ASCII — это позволяет избежать лишних конвертаций. tproger.ru
Символы с кодами от 128 до 65536 кодируются двумя байтами. tproger.ru Аналогично существуют 3-байтные и 4-байтные коды. tproger.ru
UTF-8 позволяет указать один и тот же символ несколькими способами, но правильным считается только наиболее короткий из них. neerc.ifmo.ru Остальные формы, называемые overlong sequence, отвергаются по соображениям безопасности. neerc.ifmo.ru