Некоторые современные методы извлечения ключевых слов из текста:
- Статистические методы. 12 Для поиска коллокаций (устойчивых словосочетаний) в тексте применяют статистические методы, которые требуют большой неразмеченный корпус текста на требуемом языке, максимальную длину возможной коллокации и минимальную частоту совместного появления слов в корпусе, при которой их можно считать устойчивым словосочетанием. 1
- Токенизация. 1 Текст разбивают на отдельные слова для последующей проверки. 1
- Метод «скользящего окна». 1 В нём словосочетания образуются из стоящих рядом слов, попадающих в окно заданной ширины (например, 3 слова). 1
- Методы машинного обучения. 12 Для машинного обучения с учителем необходим предварительно размеченный корпус документов с выделенными ключевыми словами. 1 Для этого используют наивные байесовские классификаторы, деревья принятия решений, бустинг. 1
- Алгоритм Rake. 2 Сначала формируется список потенциальных ключевых фраз с помощью заданного словаря разделителей фраз, а затем строится граф, вершины которого — отдельные слова. 2 Значимость для слова определяется набором показателей: частота появления вершины, степень вершины, отношение степени к частоте. 2 Значимость потенциальной ключевой фразы рассчитывается как сумма значимостей каждого входящего в неё слова. 2
В отдельный алгоритм может входить сочетание разных методов из перечисленных подходов, что помогает алгоритму глубже анализировать текст и выдавать более точный результат. 3