Процесс морфологического анализа в современных системах автоматической обработки естественного языка происходит следующим образом: www.cs.vsu.ru
- Выделение отдельных слов из текста. www.hse.ru Для этого вместе с системой морфологического анализа иногда поставляется подсистема графематического анализа. www.hse.ru Входной поток символов разбивается на токены нескольких классов: буквенные последовательности, числа, цифробуквенные комплексы, пунктуация, разделители, иероглифы. www.hse.ru
- Нормализация словоформ (лемматизация). www.lomonosov-fund.ru Различные словоформы сводятся к единому представлению — к исходной форме, или лемме. www.lomonosov-fund.ru
- Стемминг. www.lomonosov-fund.ru Другой вид нормализации, когда разные словоформы приводятся к одной основе, точнее «пседвооснове». www.lomonosov-fund.ru
- Частеречный тэгинг. www.lomonosov-fund.ru Указание части речи для каждой словоформы в тексте. www.lomonosov-fund.ru
- Полный морфологический анализ — приписывание грамматических характеристик словоформе. www.lomonosov-fund.ru
В большинстве современных морфологических анализаторов используется метод анализа на основе словаря словоформ. www.cs.vsu.ru Его преимуществом является высокая точность, поскольку лексемы хранятся полностью. www.cs.vsu.ru
Однако естественный язык постоянно развивается, поэтому постоянно пополнять словарь и поддерживать его в актуальном состоянии — трудная и не всегда выполнимая задача. www.cs.vsu.ru Поэтому современные системы совмещают словарный подход для слов, найденных в используемом инструментом словаре, и бессловарный подход для неизвестных слов. www.cs.vsu.ru