Преобразование символов в Unicode работает на разных этапах обработки текста следующим образом:
- Определение кодировки символов. 2 Всякий раз, когда последовательность байтов интерпретируется как текст и обрабатывается, её кодирование должно быть известным. 2 Во многих случаях определение кодировки символов тривиальное, например, когда обрабатывается строка в языке программирования, который указывает, что строки закодованы в UTF-16. 2
- Преобразование файла в кодовые пункты Unicode. 3 Сначала читается BOM, чтобы определить версию кодировки, затем файл преобразуется в кодовые пункты Unicode. 3
- Вывод на экран символов из набора Unicode. 3 После преобразования файл выводится на экран, и на нём отображаются символы из набора Unicode. 3
Стандарт Unicode состоит из двух основных частей: универсального набора символов и семейства кодировок. 1 Универсальный набор символов перечисляет допустимые по стандарту Unicode символы и присваивает каждому символу код в виде неотрицательного целого числа. 1 Семейство кодировок определяет способы преобразования кодов символов для передачи в потоке или в файле. 1