Система Unicode в современных компьютерных системах устроена следующим образом: 2
- Универсальный набор символов (англ. Universal character set, UCS) перечисляет допустимые по стандарту Unicode символы и присваивает каждому символу код в виде неотрицательного целого числа, записываемого обычно в шестнадцатеричной форме с префиксом U+, например, U+040F. 24
- Семейство кодировок (англ. Unicode transformation format, UTF) определяет способы преобразования кодов символов для передачи в потоке или в файле. 2
Коды в стандарте Unicode разделены на несколько областей: 2
- Область с кодами от U+0000 до U+007F содержит символы набора ASCII, и коды этих символов совпадают с их кодами в ASCII. 2
- Далее расположены области символов других систем письменности, знаки пунктуации и технические символы. 2 Часть кодов зарезервирована для использования в будущем. 2
Стандарт Unicode реализуется различными кодировками, самые распространённые — UTF-8 и UTF-16. 4 Они обеспечивают гибкость при работе с системами, имеющими разные требования к объёмам данных и производительности. 1