Автоматическое распознавание текста в современных PDF-ридерах работает на основе технологии оптического распознавания символов (OCR). helpx.adobe.com code-industry.ru Она позволяет преобразовывать изображения текста PDF-документа в редактируемый текстовый формат, который поддерживает возможность поиска текста в документе, его копирование и редактирование. code-industry.ru
Процесс распознавания включает несколько этапов: hightech.fm
- Анализ структуры документа. hightech.fm Программа определяет параметры текста: места, где находятся заголовки, подзаголовки, отдельные абзацы и другие элементы. hightech.fm
- Распределение букв по блокам и формирование строк. hightech.fm Для каждого символа существует несколько вариантов распознавания: иногда их число доходит до 20. hightech.fm У каждого из этих вариантов есть процент уверенности, на сколько, по оценке технологии, буква соответствует отсканированному изображению. hightech.fm Затем в ходе анализа документа часть вариантов исключается, так как они не соответствуют эталону или не подходят по морфологии. hightech.fm
- Синтез. hightech.fm Специальные технологии определяют внешние параметры текста — отступы и межстрочные интервалы. hightech.fm Благодаря этому из хаотичной структуры снова появляется текстовый документ с форматированием. hightech.fm
Распознавание текста будет осуществляться только в том случае, если в PDF-документе не установлен запрет на редактирование. code-industry.ru