Технология OCR (оптическое распознавание символов) в современных PDF-редакторах работает следующим образом: 4
- Преобразует отсканированный документ в двухцветный. 4
- Изучает отсканированное изображение, определяя яркие области как фон, а тёмные — как символы. 4
- Преобразует PDF для чтения, удаляя ошибки, очищая пятна, приводя в порядок строки и т. д.. 4
- Разделяет символы или глифы в тексте и сравнивает их с глифами, которые были сохранены в аналогичном шрифте и размере. 4
- Разбирает буквы на разные части, такие как линии и петли. 4 С помощью этих функций находит букву, которая выглядит наиболее похожей в сохранённых глифах. 4
- Преобразует полученные текстовые данные в цифровой файл. 4
Например, в редакторе PDFelement технология OCR позволяет распознавать текст отсканированных PDF-файлов, чтобы сделать текст и файл редактируемыми. 15