Процесс морфологического анализа в современных системах автоматической обработки естественного языка происходит следующим образом: 1
- Выделение отдельных слов из текста. 2 Для этого вместе с системой морфологического анализа иногда поставляется подсистема графематического анализа. 2 Входной поток символов разбивается на токены нескольких классов: буквенные последовательности, числа, цифробуквенные комплексы, пунктуация, разделители, иероглифы. 2
- Нормализация словоформ (лемматизация). 3 Различные словоформы сводятся к единому представлению — к исходной форме, или лемме. 3
- Стемминг. 3 Другой вид нормализации, когда разные словоформы приводятся к одной основе, точнее «пседвооснове». 3
- Частеречный тэгинг. 3 Указание части речи для каждой словоформы в тексте. 3
- Полный морфологический анализ — приписывание грамматических характеристик словоформе. 3
В большинстве современных морфологических анализаторов используется метод анализа на основе словаря словоформ. 1 Его преимуществом является высокая точность, поскольку лексемы хранятся полностью. 1
Однако естественный язык постоянно развивается, поэтому постоянно пополнять словарь и поддерживать его в актуальном состоянии — трудная и не всегда выполнимая задача. 1 Поэтому современные системы совмещают словарный подход для слов, найденных в используемом инструментом словаре, и бессловарный подход для неизвестных слов. 1