Автоматическое распознавание в OCR-программах отличается от ручного тем, что происходит без участия человека. 14 Программа находит буквы, объединяет их в слова и предложения, воссоздавая текст. 1
Автоматическое распознавание осуществляется в несколько этапов: 3
- Предварительная обработка. 3 Устраняются шумы, искажения и другие артефакты, чтобы получить более чистое и чёткое изображение. 3
- Сегментация символов. 3 Алгоритмы анализируют контуры символов и определяют их границы. 3
- Извлечение признаков. 3 Извлекаются характеристики каждого символа, такие как форма, размер, положение и т. д.. 3 Это позволяет создать их числовое представление, которое будет использоваться для сравнения с шаблонами в базе данных. 3
- Сравнение и классификация. 3 Полученные признаки сравниваются с базой данных, содержащей шаблоны. 3 Система ищет наилучшее совпадение и определяет распознанный символ на основе наиболее похожего шаблона. 3
- Постобработка и исправление ошибок. 3 Используя различные алгоритмы, система исправляет ошибки, связанные с неправильным распознаванием, и проводит дополнительную обработку для повышения точности и читабельности. 3
Ручное распознавание может потребоваться, например, для высокой точности распознавания исторического текста с необычными графическими символами, отличающимися от современных шрифтов. 5 В этом случае для языков с небольшим набором символов это можно сделать вручную, но для языков со сложными системами письменности (например, иероглифических) ручной сбор таких данных нецелесообразен. 5