Некоторые отличия алгоритма Портера от других стеммеров:
- Простота правил. scispace.com www.researchgate.net В алгоритме Портера используется около 60 суффиксов, два правила перекодирования и один тип правил обработки контекста для определения, следует ли удалять суффикс. www.researchgate.net В других стеммерах, например в алгоритме Ловинса, количество суффиксов больше, а правила сложнее. scispace.com www.researchgate.net
- Единый подход к обработке контекста. www.researchgate.net В алгоритме Ловинса многие правила обработки контекста связаны с длиной основы, которая остаётся после удаления суффикса: минимально допустимая длина обычно составляет два символа. www.researchgate.net Алгоритм Портера использует минимальную длину, основанную на количестве строк из согласных, гласных и согласных, которые остаются после удаления суффикса. www.researchgate.net
- Специальные правила для русской морфологии. gimal-ai.ru Английский вариант алгоритма Портера был разработан для английского языка, затем его адаптировали для русского. gimal-ai.ru В русском языке больше суффиксов и окончаний, поэтому стеммер Портера сначала находит основу, затем отсекает всё, что не входит в основной смысл слова. gimal-ai.ru
Кроме того, алгоритм Портера часто не различает слова со схожим синтаксисом, но разными значениями. ru.wikipedia.org ru.ruwiki.ru Например, «news» и «new» в результате стемминга сведутся к основе «new», хотя данные слова принадлежат к разным лексическим категориям. ru.wikipedia.org ru.ruwiki.ru