Автоматическое распознавание заглавных букв в текстах основано на технологиях оптического распознавания символов (OCR). 14
Один из методов распознавания — матричное сопоставление. 1 Каждая буква в исходном изображении разбивается на пиксельные матрицы, а затем сопоставляется с матрицами, имеющимися у компьютера. 1 При совпадении матриц буква считается распознанной. 1 Для каждого языка достаточно иметь сравнительно небольшое количество данных — образцов написания букв, по которым и делаются попиксельные матрицы. 1
Для распознавания рукописного текста или других редких или нетипичных шрифтов используется метод распознавания отдельных образов. 1 Каждая буква, несмотря на то, что пишется разными людьми по-разному, всё же состоит из одинаковых частей. 1 В таком случае каждый отдельный знак — это уже вектор характерных для буквы графических признаков, а задача сводится к тому, чтобы найти их в исходном тексте. 1
Ещё один метод — использование языковой модели. 3 Она помогает алгоритму распознавания улучшить результат с помощью известных языковых словосочетаний. 3 Языковая модель может предсказывать следующее слово на основании предыдущих и предлагать варианты с различной степенью вероятности. 3
После распознавания текст может быть проверен на орфографию. 3 Например, текст разбивается на слова, затем проверяется на наличие в словаре. 3 Если в словаре нет слова, но оно похоже на какое-то, предлагается вариант для исправления. 3