Принцип работы технологии OCR в ABBYY FineReader заключается в следующем: 2
- Импорт файла. 1 При помощи интерфейса TWAIN или WIA API файл импортируется в базу. 1 Считывание работает даже напрямую из памяти компьютера (например, текущий экран компьютера, смартфона). 1
- Повышение качества изображения. 1 Повышается контрастность и чёткость изображения. 1
- Анализ структуры документа. 2 Программа разбивает страницу на элементы: блоки текста, таблицы, изображения и т. д.. 2 Строки делятся на слова, а затем — на символы. 2
- Сравнение символов с набором шаблонных изображений. 2 Программа выдвигает множество гипотез о том, на что похож обнаруженный символ. 3
- Анализ на основе гипотез. 2 Программа анализирует разные варианты деления строк на слова, а слов — на символы. 2
- Принятие решения. 2 После обработки огромного количества вероятностных гипотез программа выдаёт распознанный текст. 2
Кроме того, ABBYY FineReader предоставляет словарную поддержку для 48 языков. 2 Это позволяет проводить вторичный анализ элементов текста на уровне слов. 2 Словарная поддержка обеспечивает более точный анализ и распознавание документов, а также упрощает дальнейшую проверку результатов распознавания. 2