Процесс оптического сканирования документов включает несколько этапов: 2
- Сканирование. 2 Оригинал документа размещается на рабочей поверхности сканера, и с помощью оптической системы изображение проецируется на ограниченную область. 1
- Преобразование в цифровой вид. 1 С помощью специальной электроники сканера сформированное изображение переводится в цифровой вид и преобразуется в полностью готовый образ документа. 1 При этом в зависимости от выбранного режима производится обрезка по формату документа, выравнивание и очистка от мелких пятен. 1
- Передача документа в электронном виде компьютеру. 1 Документ передаётся для последующей обработки и архивации. 1
После этого начинается процесс оптического распознавания символов (OCR): 25
- Преобразование документа в формат изображения. 3 Сканер распознаёт файлы и представляет их в виде двоичных данных. 3 Затем алгоритмы анализируют полученную картинку, воспринимая светлые области как фон, тёмные — как текстовую составляющую. 3
- Подготовка текстового содержимого. 3 Происходит выравнивание, стирание рамок, регулировка контраста, устранение лишних элементов, идентификация шрифтов. 3
- Распознавание текста методом сопоставления шаблонов или поиска признаков. 3 В первом случае текст сравнивается с базой шрифтов, с которыми инструмент уже знаком. 3 Метод выделения признаков подразумевает изучение линий, характера контуров букв. 3 Таким способом алгоритмы определяют наиболее подходящие к образцу шрифты. 3
- Обработка полученного текста и его трансформация в удобный формат, например, PDF-файл. 3