Некоторые основные правила Unicode, которые нужно учитывать при работе с кроссплатформенными строками:
- Использовать «широкие» строки для строковых констант, хранения и обработки промежуточных текстовых значений. 3 Это позволит эффективно заменять символы и совпадать количеству элементов в строке с количеством символов. 3
- Учитывать BOM. 3 Это стандартный заголовочный набор байтов, который нужен для распознавания кодировки текста в Unicode. 3 Для каждой из кодировок UTF он выглядит по-разному. 3
- Использовать кодировку UTF-8. 2 Она нейтральна к порядку следования байтов, что важно при обмене текстом между разными вычислительными системами с разными аппаратными архитектурами. 2
- Следить за правильной пометой текста. 1 В Unicode разные начертания одного и того же символа зависят от языка. 1 Нужно, чтобы текст всегда был правильно помечен как относящийся к тому или другому языку. 1
- Использовать нормализацию строк. 1 Это поможет избежать проблемы, когда символы, выглядящие для человека одинаково, имеют различное внутреннее представление. 1