Вопросы к Поиску с Алисой
Понятие overlong sequences (длинные последовательности) в стандарте UTF-8 существует из-за того, что один и тот же символ может представляться разными последовательностями байт. neerc.ifmo.ru
По стандарту UTF-8 для представления символа должно использоваться минимальное число байт. neerc.ifmo.ru Все остальные представления называются overlong sequences и считаются недопустимыми. stackoverflow.com github.com
Однако есть мнение, что использование таких последовательностей может быть полезно. neerc.ifmo.ru Например, в Modified UTF-8 символ NUL (U+0000) представляют двумя байтами C0 80, чтобы оставить 00 под символ конца строки. neerc.ifmo.ru