OCR-технология (оптическое распознавание символов) позволяет преобразовывать изображения в текстовые данные. 12 Она анализирует графические образы и заменяет их на буквы, цифры и символы. 2 При этом сохраняется внешний вид страницы: текстура бумаги, пятна и прочие особенности остаются неизменными. 2
Процесс OCR включает несколько этапов: 1
- Преобразование документа в формат изображения. 1 Сканер распознаёт файлы и представляет их в виде двоичных данных. 1 Затем алгоритмы анализируют полученную картинку, воспринимая светлые области как фон, тёмные — как текстовую составляющую. 1
- Подготовка текстового содержимого. 1 Включает выравнивание, стирание рамок, регулировку контраста, устранение лишних элементов, идентификацию шрифтов. 1
- Распознавание текста методом сопоставления шаблонов или поиска признаков. 1 В первом случае текст сравнивается с базой шрифтов, с которыми инструмент уже знаком. 1 Метод выделения признаков подразумевает изучение линий, характера контуров букв. 1 Таким способом алгоритмы определяют наиболее подходящие к образцу шрифты. 1
- Обработка полученного текста и его трансформация в удобный формат, например, PDF-файл. 1
Точный алгоритм распознавания зависит от используемого инструмента OCR и формата анализируемого документа. 1