За последние десятилетия система кодировок в компьютерных технологиях значительно изменилась, в частности, благодаря развитию интернета и необходимости обмена большим количеством текстовой информации. 4
До 1990-х годов не существовало единой кодировки, что приводило к тому, что текст, написанный в одной кодировке, становился нечитаемым на других. 4
В 1991 году появилась первая версия общей таблицы символов — Unicode. 45 Она включала в себя 7161 символ из 24 письменностей мира. 4 Постепенно в Unicode добавлялись новые языки и символы. 4 Например, в версию 1.0.1 в середине 1992 года добавили более 20 000 идеограмм китайского, японского и корейского языков. 4 В актуальной на текущий момент версии содержится уже более 143 000 символов. 4
На основе Unicode разработаны несколько кодировок, которые отличаются способом записи номера символа Unicode в виде набора байт. 4 Среди них — UTF-8, UTF-16, UTF-32 и другие. 45
Наибольшую популярность получила UTF-8 — кодировка с переменным числом байт. 4 Она позволяет кодировать символы так, что наиболее распространённые символы занимают 1–2 байта, и только редко встречающиеся символы могут использовать по 4 байта. 4