В разных системах автоматического распознавания используются различные форматы данных, потому что это зависит от конкретных задач и требований к обработке информации. 15
Например, в системах оптического распознавания символов (OCR) результат распознавания может быть сохранён в стандартизированном формате ALTO, специальной XML-схеме, поддерживаемой Библиотекой Конгресса США. 2 Другие распространённые форматы — hOCR и PAGE XML. 2
Также более сложные системы распознавания текста могут сохранять исходный макет страницы и создавать, например, аннотированный PDF-файл, который включает как исходное изображение страницы, так и текстовое представление с возможностью поиска. 2
Таким образом, выбор форматов данных зависит от того, какие возможности и особенности должны быть реализованы в конкретной системе автоматического распознавания.