Некоторые особенности кодирования символов в различных языках мира:
- Алфавиты. 5 Каждый национальный язык обладает собственным алфавитом, состоящим из конкретного набора последовательно расположенных символов (букв). 5 Соответственно, они имеют свой порядковый номер. 5 На каждую букву алфавита приходится целое положительное число — код символа, который будет храниться в памяти компьютера, а при выводе на монитор или бумагу он преобразуется в тот символ, который ему соответствует. 5
- Количество байтов для кодирования. 2 Например, в кодировке UTF-8 латиница кодируется одним байтом, а кириллица — двумя байтами. 2
- Начертания символов. 3 В Юникоде есть разные начертания одного и того же символа в зависимости от языка. 3 Например, китайские иероглифы могут иметь разные начертания в китайском, японском (кандзи) и корейском (ханча), но при этом в Юникоде обозначаются одним и тем же символом. 3
- Перевод из строчных букв в заглавные. 3 Например, в турецком существуют буквы İi и Iı — таким образом, турецкие правила изменения регистра конфликтуют с английскими, которые предписывают «i» переводить в «I». 3
Для универсального кодирования символов разных языков мира используется, например, система Unicode, в которой каждому символу присваивается уникальный номер. 4