Некоторые методы, которые используются для извлечения знаний из документов:
- Кластеризация текста. 1 Используется, когда нет предварительной информации о классах рассматриваемых документов. 1 Кластеризация позволяет сортировать документы и формировать классы или кластеры, с которыми они соотносятся. 1
- Статистический и семантический поиск. 1 В первом случае поиск осуществляется на основе анализа частот возникновения в тексте сочетаний символов, приведённых в запросе пользователя. 1 Во втором случае акцент сделан на смысловой стороне этого запроса. 1
- Поиск на основе словоформ. 1 Этот тип поиска наиболее распространён и является основой поиска информации по ключевым словам. 1
- Методы на основе шаблонов или правил. 3 В таких методах используют составленные вручную или автоматически правила или шаблоны на основе синтаксических и морфологических признаков. 3
- Методы на основе внешних источников. 3 Используют внешние источники знаний, такие как Википедия, DBpedia, YAGO и другие. 3 Из этих источников извлекают структуру знаний о предметной области, которые затем расширяются на основе данных из естественно-языковых текстов. 3
- Лемматизация. 4 Специальный вид морфологического анализа текста, позволяющий группировать и приводить близкие по смыслу слова к единой, унифицированной форме — лемме. 4
- Стемминг. 4 Процедура выделения основы слова, учитывающая его морфологическую структуру и отсекающая сервисные части слова, такие, как суффиксы, префиксы и окончания. 4