Для эффективного извлечения данных из больших текстовых файлов используются различные критерии поиска, например:
- Векторная модель поиска. www.osp.ru Работает по принципу наличия в релевантном документе всех терминов запроса, учёта их встречаемости в документах и средней языковой частотности. www.osp.ru
- Булева модель поиска. www.osp.ru Позволяет вводить в запрос логические операторы, контекстные ограничения на расстояние между словами, строить разветвлённые мощные запросы, использовать стоп-словарь и лексические шаблоны. www.osp.ru
- Нечёткая булева модель поиска. www.osp.ru Позволяет поисковой машине доставлять документы, которые она считает релевантными, даже если некоторые «слабые» элементы запроса в них не встречаются. www.osp.ru
- Использование тезаурусов. www.osp.ru За счёт них происходит расширение запроса. www.osp.ru
Также для ускорения поиска по большим документам могут использоваться методы, которые позволяют раздельно хранить и обрабатывать большие поля отдельно от остальных полей документов. habr.com