В ABBYY FineReader используются различные технологии оптического распознавания текстов, среди них:
- Бинаризация. 1 Преобразование цветного или полутонового образа в монохромный (глубина цвета 1 бит). 1 Бинаризация ускоряет процесс анализа графических элементов. 1
- Адаптивная бинаризация (Adaptive Binarization, AB). 1 Используется при обработке документов с подложенными текстурами и фоновыми рисунками. 1 Система исследует яркость фона и насыщенность чёрного цвета на протяжении всей строки или слова и подбирает оптимальные параметры преобразования для каждого фрагмента изображения по отдельности. 1
- Адаптивная технология распознавания документов ADRT (Adaptive Document Recognition Technology). 15 Позволяет анализировать и обрабатывать документ целиком, а не постранично. 5 В результате восстанавливается исходная структура документа, включая форматирование, гиперссылки, адреса электронной почты, а также колонтитулы, подписи к картинкам и диаграммам, номера страниц и сноски. 5
- Алгоритмы многоуровневого анализа документов (Multilevel Document Analysis, MDA). 1 Осуществляют разбор документов поэтапно, сверху вниз, посредством деления страниц на объекты низших уровней вплоть до отдельных символов. 1
- Признаковый дифференциальный классификатор. 1 В задачи этого модуля входит обработка похожих друг на друга объектов. 1 Он анализирует только те области изображения, где может находиться информация, позволяющая отдать предпочтение одному из вариантов. 1
- Контурный классификатор. 1 Первоначально был создан и использовался для распознавания рукописного текста средствами ICR-технологий (Intelligent Character Recognition), затем был успешно применён и для обработки печатных документов. 1
- Структурный классификатор. 1 Анализирует структуру символов: различные составляющие элементы, куски окружностей и отрезков, фрагменты, соединения, крайние точки, разрывы и тому подобное. 1