Технология оптического распознавания текста в ABBYY FineReader работает следующим образом: 2
- Предварительная обработка и анализ изображения. 2 Программа выделяет на изображении области с текстом, картинками, таблицами и штрих-кодами. 1 Для ускорения процесса анализа графических элементов используется механизм бинаризации — преобразования цветного или полутонового образа в монохромный. 2
- Многоуровневый анализ документов (MDA). 2 Он осуществляет разбор страниц поэтапно, сверху вниз, посредством деления их на объекты низших уровней вплоть до отдельных символов. 2
- Адаптивная технология распознавания документов ADRT (Adaptive Document Recognition Technology). 2 Алгоритмы смотрят на контекст документа, находят общие структурные элементы, выявляют связи между ними и сохраняют полученные сведения для использования на финальных этапах синтеза либо экспорта данных в выбранный пользователем формат. 2 Система распознаёт колонтитулы, нумерацию страниц, разноуровневые заголовки, подписи к картинкам, а также стили шрифтов и прочие элементы. 2
- Сборка электронного документа. 2 Реконструкция обработанного документа осуществляется в два этапа: страничный синтез запускается на каждой странице сразу после выполнения соответствующих OCR-процедур, второй — документный синтез — начинает работу после распознавания всех страниц документа. 2
Результат распознавания отображается в окне «Текст», неуверенно распознанные символы выделяются цветом. 1