Система распознавания и выделения абзацев в современных текстовых редакторах работает в несколько этапов: 3
- Ввод страницы. 3 Отсканированный или сфотографированный документ попадает в компьютер в виде изображения. 3
- Анализ макета. 3 Программа определяет, где на странице находятся текст, рисунки, таблицы и т. п., и разбивает её на блоки. 3 Программа последовательно дробит страницу на всё более мелкие блоки: разбивает текст на абзацы, затем на предложения, отдельные слова и символы. 3 В финале анализа макета документ представляет собой набор отдельных символов. 3 Программа запоминает, в каком месте на странице каждый из них находится. 3
- Распознавание символов. 3 Самый ответственный этап процесса, так как программа должна правильно идентифицировать все найденные знаки. 3 Для более точного распознавания текста программы комбинируют различные методы, которые условно делятся на две категории: методы сопоставления с образцом и методы сопоставления признаков. 3
- Реконструкция документа. 3 После завершения процесса распознавания программа начинает воссоздавать страницы, с помощью встроенного словаря объединяя отдельные символы в слова, слова в предложения, предложения в абзацы и т. д.. 3
Для отсканированных документов типографского качества (достаточно крупный шрифт, отсутствие плохо напечатанных символов или исправлений) распознавание символов проводится путём их сравнения с растровыми шаблонами. 1 Растровое изображение каждого символа последовательно накладывается на растровые шаблоны символов, хранящиеся в памяти системы оптического распознавания. 1 Результатом распознавания является символ, шаблон которого в наибольшей степени совпадает с изображением. 1
При распознавании документов с низким качеством печати (машинописный текст, факс и т. д.) используется векторный метод распознавания символов. 1 В распознаваемом изображении символа выделяются геометрические примитивы (отрезки, окружности и др.) и сравниваются с векторными шаблонами символов. 1 В результате выбирается тот символ, для которого совокупность всех геометрических примитивов и их расположение больше всего соответствует распознаваемому символу. 1