Для автоматического анализа грамматической структуры текста применяются различные методы, например:
- Токенизация (графематический анализ). 1 Проводится первичный анализ текста исходного документа: определяются границы заголовков, абзацев и отдельных предложений, из предложений выделяются отдельные слова — словоформы. 1
- Лексико-грамматический анализ. 2 Задача — автоматически распознать, какой части речи принадлежит каждое слово в тексте. 2 Для этого используются триграмная и квадриграмная модели, в которых информация обрабатывается программой с помощью статистических алгоритмов (чаще всего алгоритма скрытых цепей Маркова). 2 Также применяются алгоритмы, основанные на продукционных правилах, которые используют правила, собранные автоматически с корпуса текстов или подготовленные квалифицированными лингвистами. 2
- Синтаксический анализ. 2 Цель — автоматическое построение функционального дерева фразы, то есть нахождение взаимозависимостей между разноуровневыми элементами предложения. 2 Для этого используются графовый подход и синтаксический разбор на основе системы переходов, в которых применяются методы машинного обучения. 4
- Вторичный семантический анализ. 1 В ходе этого этапа устанавливаются взаимосвязи между сущностями, происходит извлечение мнений и анализ тональности текста. 1