Разница между OCR-технологией и обычным поиском текста в PDF заключается в том, что OCR делает текст доступным для поиска, а обычный поиск — нет.
OCR (Optical Character Recognition, оптическое распознавание символов) — технология, которая преобразует изображения текста в редактируемый формат. 1 С её помощью можно обрабатывать сканированные документы, фотографии или неструктурированные PDF-файлы. 1 После распознавания текста можно легко искать определённые слова или фразы в документах. 2
Обычный поиск текста в PDF возможен только в файлах, которые созданы в цифровом виде, например, с помощью программных приложений, таких как Word или Excel. 5 Такие файлы уже доступны для поиска, так как в них есть текстовый слой. 5
Таким образом, OCR делает контент доступным для поиска, позволяя извлекать текст, редактировать его и сохранять в привычном формате. 1 Обычный поиск возможен только в файлах, которые не были обработаны OCR и содержат только слой изображений. 35