Для эффективного извлечения данных из больших текстовых файлов используются различные критерии поиска, например:
- Векторная модель поиска. 1 Работает по принципу наличия в релевантном документе всех терминов запроса, учёта их встречаемости в документах и средней языковой частотности. 1
- Булева модель поиска. 1 Позволяет вводить в запрос логические операторы, контекстные ограничения на расстояние между словами, строить разветвлённые мощные запросы, использовать стоп-словарь и лексические шаблоны. 1
- Нечёткая булева модель поиска. 1 Позволяет поисковой машине доставлять документы, которые она считает релевантными, даже если некоторые «слабые» элементы запроса в них не встречаются. 1
- Использование тезаурусов. 1 За счёт них происходит расширение запроса. 1
Также для ускорения поиска по большим документам могут использоваться методы, которые позволяют раздельно хранить и обрабатывать большие поля отдельно от остальных полей документов. 4