Некоторые способы хранения и обработки международных символов в компьютерных системах:
- ASCII. habr.com it.rfei.ru Международный байтовый код, который применяется в персональных компьютерах и телекоммуникационных системах. it.rfei.ru Регламентирует коды первой половины кодовой таблицы (номера кодов от 0 до 127). it.rfei.ru В эту часть попадают коды прописных и строчных английских букв, цифры, знаки препинания и математических операций, а также некоторые управляющие коды. it.rfei.ru
- Unicode. habr.com skyeng.ru Универсальный стандарт для представления текста на различных языках мира. skyeng.ru В основе системы лежит уникальная числовая идентификация каждого символа. skyeng.ru Unicode охватывает почти все письменные системы, использованные в мире. skyeng.ru Включает более 143 000 знаков, охватывающих алфавиты разных народов, математические символы, эмодзи и многое другое. skyeng.ru
- UTF-8, UTF-16 и UTF-32. habr.com desktop.arcgis.com Три основные схемы Unicode для кодирования символов. desktop.arcgis.com
- UTF-8 использует 8-битовую кодовую единицу переменной ширины. desktop.arcgis.com Для кодирования символа используется от 1 до 6 байт. desktop.arcgis.com
- UTF-16 использует одну 16-битовую кодовую единицу фиксированной ширины. desktop.arcgis.com Все наиболее часто используемые символы могут быть закодированы с помощью одной 16-битовой кодовой единицы. desktop.arcgis.com
- UTF-32 требует 4 байта для кодирования любого символа. desktop.arcgis.com В большинстве случаев документ, закодированный с помощью UTF-32, будет примерно в два раза больше, чем такой же документ, закодированный с помощью UTF-16. desktop.arcgis.com
Кроме того, существуют и другие кодировки, например, UTF-7 и UTF-EBCDIC, а также кодировка GB18030, которая является китайским эквивалентом кодировки UTF-8 и поддерживает упрощённые и традиционные китайские символы. desktop.arcgis.com