Для обработки естественных языков используются различные кодировки символов, среди них:
- ASCII. 34 Первый стандарт кодировки символов, в котором предусмотрен английский алфавит (латиница). 4 Состоит из 128 уникальных символов. 4
- ISO. 4 Стандарт, представленный 8 битами. 4 Младшая группа символов здесь представляет собой «базовый» ASCII, а старшая группа отводится под разнообразные языки. 4
- KOI8-R. 4 Расширенный вариант представления ASCII, который предназначается для работы с символами русского алфавита. 4
- Unicode. 12 Универсальный набор символов, который объединяет буквы практически всех современных языков, большой набор иероглифов, цифры, знаки пунктуации, множество математических и технических символов. 1
Также существуют кодировки с переменной длиной символа, например UTF-16 и UTF-8. 15