Некоторые алгоритмы определения тональности могут давать разные результаты по нескольким причинам:
- Субъективность задачи. 5 Определение эмоциональной оценки текста субъективно, разные люди могут по-разному оценить один и тот же текст. 5
- Неструктурированность текстов. 5 Тексты на естественном языке являются неструктурированными объектами, что осложняет работу с ними. 5 Кроме того, в тексте могут присутствовать сарказм, шутки, опечатки, которые не всегда может понять человек, не говоря уже о машине. 5
- Различия в предметной области. 5 Классификатор, обученный на текстах одной предметной области, может не справляться со своей задачей для текстов из другой предметной области. 5 Например, классификатор, обученный на текстах об автомобилях, будет не совсем корректно определять тональность текстов о косметической продукции. 1
- Неоднозначность трактовки слов. 4 Например, модель «мешок слов» некорректно работает со словами, меняющими тональность выражения на противоположное. 4
- Неоднозначность, вызванная возможностью одного и того же слова быть различными частями речи. 4 Для ликвидации этой проблемы применяется тегирование частей речи — определение для каждого слова в предложении его части речи по положению в предложении и/или грамматической форме. 4
Чаще всего разработчики систем автоматического анализа тональности текста сочетают несколько методов. 1 Невозможно сказать, какой метод лучше использовать на постоянной основе, всё зависит от текущей ситуации и поставленной задачи. 3