Как хранить данные в оперативной памяти при кодировании текста Unicode?

Алиса

На основе источников, возможны неточности

Как это работает?

При кодировании текста Unicode данные в оперативной памяти хранятся в виде двоичного числа. stepik.org Когда символ сохраняется в памяти, он сначала преобразуется в цифровой код, а затем этот код сохраняется как двоичное число. stepik.org

То, как символы с соответствующими кодами будут храниться в памяти компьютера, зависит от конкретной кодировки, базирующейся на Unicode, например UTF-8. stepik.org

В UTF-8 каждый символ кодируется разным количеством байтов — всё зависит от того, какой длины исходное число: thecode.media

До 7 бит — выделяется один байт, первый бит всегда ноль. thecode.media

8–11 бит — выделяется два байта. thecode.media Две единицы в начале говорят, что перед нами символ из двух байтов. thecode.media Последовательность 10 в начале второго байта — признак того, что это продолжение предыдущего байта. thecode.media

12–16 бит — выделяется три байта. thecode.media Три единицы в начале — признак трёхбайтного символа. thecode.media Каждый байт продолжения начинается с 10. thecode.media

17–21 бит — для кодирования нужно четыре байта. thecode.media

Например, латинские буквы и цифры в UTF-8 закодированы под один байт, а китайские иероглифы — под два байта. habr.com

Примеры полезных ответов Поиска с Алисой на вопросы из разных сфер. Вопросы сгенерированы нейросетью YandexGPT для актуальных тем, которые определяются на базе обобщённых запросов к Поиску с Алисой.

Пожаловаться на контент

Пользовательское соглашение

Связаться с нами

Задать новый вопрос

Как это работает?