Вопросы к Поиску с Алисой
Основное отличие между составными символами и суррогатными парами в кодировании Unicode заключается в их природе и назначении.
Составные символы (composite character) — это визуальные единицы, которые состоят из нескольких кодовых точек Юникода. stackoverflow.com Они могут включать несколько компонентов, например, базовую букву и диакритические знаки или модификаторы. stackoverflow.com Составные символы можно разложить для согласованности или анализа. habr.com Например, при сортировке имён по алфавиту символ [ü] можно разложить на [u], за которым следует несамостоятельный знак [¨]. habr.com
Суррогатная пара (surrogate pair) — это две кодовые пары, которые используются для кодирования одного символа. github.com Суррогатная пара представляет только один символ. habr.com Первая кодовая единица пары всегда находится в диапазоне от 0xD800 до 0xDBFF и называется верхней частью пары. habr.com Вторая кодовая единица пары всегда находится в диапазоне от 0xDC00 до 0xDFFF и называется нижней частью пары. habr.com Суррогатные пары позволяют кодировать символы, которые не помещаются в стандартный 16-битный код. sky.pro Этот механизм расширяет диапазон представляемых символов за пределы базовой многоязычной плоскости Unicode, включая древние письменности и эмодзи. sky.pro