Некоторые алгоритмы, которые используются для автоматического анализа текстовой информации:
- Нейросетевые алгоритмы. 1 Позволяют извлекать из текста индекс в виде сети основных понятий и их связей с весовыми характеристиками. 1
- Алгоритмы морфологического анализа. 3 С их помощью распознаются элементы морфологической структуры слова — корни, основа, аффиксы, окончания. 3 К алгоритмам, широко применяемым на морфологическом уровне, относятся стемминг и лемматизация. 3
- Лексическая декомпозиция. 3 Предусматривает разбивку текста на токены. 3
- Алгоритмы семантического уровня. 3 Предусматривают анализ семантики языковых единиц (например, структурно-семантических отношений), либо анализ структуры связного текста, в том числе моделирование его тематической структуры. 3
Также для автоматического анализа текстовой информации используются идентификатор языка, экстрактор характеристик, аннотатор, категоризатор и кластеризатор. 1