Автоматическое распознавание текста в современных PDF-ридерах работает на основе технологии оптического распознавания символов (OCR). 34 Она позволяет преобразовывать изображения текста PDF-документа в редактируемый текстовый формат, который поддерживает возможность поиска текста в документе, его копирование и редактирование. 4
Процесс распознавания включает несколько этапов: 1
- Анализ структуры документа. 1 Программа определяет параметры текста: места, где находятся заголовки, подзаголовки, отдельные абзацы и другие элементы. 1
- Распределение букв по блокам и формирование строк. 1 Для каждого символа существует несколько вариантов распознавания: иногда их число доходит до 20. 1 У каждого из этих вариантов есть процент уверенности, на сколько, по оценке технологии, буква соответствует отсканированному изображению. 1 Затем в ходе анализа документа часть вариантов исключается, так как они не соответствуют эталону или не подходят по морфологии. 1
- Синтез. 1 Специальные технологии определяют внешние параметры текста — отступы и межстрочные интервалы. 1 Благодаря этому из хаотичной структуры снова появляется текстовый документ с форматированием. 1
Распознавание текста будет осуществляться только в том случае, если в PDF-документе не установлен запрет на редактирование. 4