Технология распознавания текста (OCR) преобразует физические документы и изображения в редактируемый цифровой файл. 2
Алгоритм работы OCR включает следующие этапы: 1
- Оцифровка. 1 Система сканирует носитель, в результате получается растр — матрица пикселей. 1
- Бинаризация. 1 Растр приводится к чёрно-белому формату, выравнивается угол наклона и размер. 1
- Сегментация страницы. 1 Алгоритм определяет в бинарном растре колонки и абзацы текста, слова и распознаваемые символы. 1
- Сохранение обработанной информации. 1 Система сохраняет полученный файл в текстовом формате так, чтобы в нём отображались все распознанные символы и строки. 1
- Классификация символов. 1 Анализируя сохранённый документ, классификатор выявляет, какой символ изображён. 1
- Постобработка и аналитика. 1 На финальном этапе система на основе оценок вероятностей символов и информации от постобработчиков формирует из символов распознанный текст, выявляет потенциальные орфографические и грамматические ошибки. 1
Некоторые системы сопоставляют не отдельные символы, а целые слова. 3 Это называется оптическим распознаванием слов. 3