Некоторые методы, которые используются для распознавания символов в OCR-системах:
- Сопоставление шаблонов. 1 Текст сравнивается с базой шрифтов, с которыми инструмент уже знаком. 1
- Выделение признаков. 1 Подразумевает изучение линий, характера контуров букв. 1 Таким способом алгоритмы определяют наиболее подходящие к образцу шрифты. 1
- Распознавание при помощи метрик. 2 В качестве метрики используют расстояние Хэмминга, которое показывает, на сколько пикселей различаются изображения. 2 Если признаки двух символов максимально похожи, то разность между их метриками (то есть расстояние между ними) стремится к нулю. 2 Дальнейшая классификация символа происходит по методу ближайшего соседа. 2
- Группировка символов. 2 Некоторые символы обладают суперсимметрией (полностью совпадают со своими отражениями, значимые пиксели распределены равномерно по всему изображению) и их можно выделить в отдельный класс. 2 Это значительно сокращает перебор метрик. 2
- Контекстное распознавание. 2 В качестве помощи алгоритмам распознавания в систему включают словари. 2 Они предоставляют справки во многих случаях, но быстро отказывают, когда, например, имеют дело с именами собственными, которые не находятся в словаре. 2
Точный алгоритм распознавания зависит от используемого инструмента OCR и формата анализируемого документа. 1