Вопросы к Поиску с Алисой
Некоторые языки программирования занимают разное количество байт в текстовых форматах из-за различий в используемых кодировках символов. habr.com softwaremaniacs.org
Например, в кодировке UTF-8 разные символы кодируются разным количеством байтов. softwaremaniacs.org Те, что входят в старый ASCII, кодируются одним байтом, русские и западноевропейские символы — двумя, японские катакана и хирагана — тремя, а есть и такие, для которых может потребоваться и четыре байта. softwaremaniacs.org
В кодировке UTF-16 для кодирования одного символа используются двухбайтовые целые. softwaremaniacs.org Этого хватает для хранения большинства распространённых на практике символов. softwaremaniacs.org Для редких символов, включённых в Юникод позднее, используются пары двухбайтовых целых. softwaremaniacs.org
В кодировке UTF-32 (или, что почти одно и то же — UCS-4) для представления символа используется строго 4 байта. softwaremaniacs.org С недавнего времени Python на большинстве платформ использует именно четырёхбайтовое представление для юникодных строк. softwaremaniacs.org