Лемматизация считается более точным методом обработки естественного языка, чем стемминг, потому что она учитывает контекст слова и грамматические правила. 12
Стемминг — это процесс нахождения основы слова путём удаления окончаний. 1 Он уменьшает количество различных форм слов, которые нужно учитывать при анализе текста. 1 Например, для слов «книга», «книги» и «книгу» стемминг вернёт общую форму «книг». 1
Лемматизация, в свою очередь, приводит слово к его базовой форме (лемме) путём удаления суффиксов и преобразования слова в его нормальную форму. 1 Например, лемматизация слова «бежал» даст базовую форму «бежать». 1
Также лемматизация может различать идентичные слова, которые имеют разные значения в зависимости от конкретного контекста. 3 Например, «bat» (может соответствовать животному или металлической/деревянной бите, используемой в бейсболе) или «bank» (соответствует финансовому учреждению или участку земли рядом с водоёмом). 3