Некоторые причины, по которым символы Юникода могут иметь различное представление в разных кодировках:
- Комбинирование символов. 2 Некоторые символы в кодировке Unicode предназначены для модификации других символов (комбинируемые символы). 2 Они позволяют добавлять к базовым символам диакритические знаки. 2 Например, букву é можно представить двумя способами: с помощью одной кодовой точки U+00E9 или с помощью комбинации буквы e и знака акута, то есть — с помощью двух кодовых точек — U+0065 и U+0301. 2 Символы, получившиеся в результате применения любого из этих способов представления буквы é, будут выглядеть одинаково, но при их сравнении окажется, что символы это разные. 2
- Особые случаи в разных языках. 1 Разные языки могут использовать один и тот же символ, но изменять его по-разному в особых случаях. 1 Например, символы могут иметь различное курсивное начертание (буквы «п» и «т» в русском и сербском языках) или по-другому переводиться из строчных букв в заглавные. 1