Технология оптического распознавания текста в ABBYY FineReader работает следующим образом: 3dnews.ru
- Предварительная обработка и анализ изображения. 3dnews.ru Программа выделяет на изображении области с текстом, картинками, таблицами и штрих-кодами. kgo66.ru Для ускорения процесса анализа графических элементов используется механизм бинаризации — преобразования цветного или полутонового образа в монохромный. 3dnews.ru
- Многоуровневый анализ документов (MDA). 3dnews.ru Он осуществляет разбор страниц поэтапно, сверху вниз, посредством деления их на объекты низших уровней вплоть до отдельных символов. 3dnews.ru
- Адаптивная технология распознавания документов ADRT (Adaptive Document Recognition Technology). 3dnews.ru Алгоритмы смотрят на контекст документа, находят общие структурные элементы, выявляют связи между ними и сохраняют полученные сведения для использования на финальных этапах синтеза либо экспорта данных в выбранный пользователем формат. 3dnews.ru Система распознаёт колонтитулы, нумерацию страниц, разноуровневые заголовки, подписи к картинкам, а также стили шрифтов и прочие элементы. 3dnews.ru
- Сборка электронного документа. 3dnews.ru Реконструкция обработанного документа осуществляется в два этапа: страничный синтез запускается на каждой странице сразу после выполнения соответствующих OCR-процедур, второй — документный синтез — начинает работу после распознавания всех страниц документа. 3dnews.ru
Результат распознавания отображается в окне «Текст», неуверенно распознанные символы выделяются цветом. kgo66.ru