Некоторые способы хранения и обработки международных символов в компьютерных системах:
- ASCII. 12 Международный байтовый код, который применяется в персональных компьютерах и телекоммуникационных системах. 2 Регламентирует коды первой половины кодовой таблицы (номера кодов от 0 до 127). 2 В эту часть попадают коды прописных и строчных английских букв, цифры, знаки препинания и математических операций, а также некоторые управляющие коды. 2
- Unicode. 13 Универсальный стандарт для представления текста на различных языках мира. 3 В основе системы лежит уникальная числовая идентификация каждого символа. 3 Unicode охватывает почти все письменные системы, использованные в мире. 3 Включает более 143 000 знаков, охватывающих алфавиты разных народов, математические символы, эмодзи и многое другое. 3
- UTF-8, UTF-16 и UTF-32. 14 Три основные схемы Unicode для кодирования символов. 4
- UTF-8 использует 8-битовую кодовую единицу переменной ширины. 4 Для кодирования символа используется от 1 до 6 байт. 4
- UTF-16 использует одну 16-битовую кодовую единицу фиксированной ширины. 4 Все наиболее часто используемые символы могут быть закодированы с помощью одной 16-битовой кодовой единицы. 4
- UTF-32 требует 4 байта для кодирования любого символа. 4 В большинстве случаев документ, закодированный с помощью UTF-32, будет примерно в два раза больше, чем такой же документ, закодированный с помощью UTF-16. 4
Кроме того, существуют и другие кодировки, например, UTF-7 и UTF-EBCDIC, а также кодировка GB18030, которая является китайским эквивалентом кодировки UTF-8 и поддерживает упрощённые и традиционные китайские символы. 4