Некоторые направления развития современных алгоритмов для автоматической категоризации текста:
- Использование модели текста, разработанной с помощью словарно-ориентированного алгоритма сжатия данных. 1 Такая модель позволяет учитывать не только лексическую, но и композиционную семантику документа, а также упростить этап индуктивного построения классификатора документов. 1
- Применение LLM-классификаторов. 2 Для их разработки не требуется предварительно собирать и размечать большой объём данных. 2 Достаточно написать промпт, что значительно ускоряет процесс. 2 Однако без предварительно обученного датасета точность LLM-классификатора может быть ниже, чем у ML-классификатора. 2
- Использование частотного анализа слов по методу TF-IDF. 3 Он позволяет оценить важность слова в контексте категории и всего объёма текстовых данных в целом. 3 Чем чаще слово употребляется в контексте одной категории, тем выше вероятность того, что текстовое сообщение должно быть приравнено к ней. 3
Также разрабатываются, например, системы microTC, которые представляют собой минималистичную и широкую систему, способную решать задачи классификации текстов независимо от предметной области и языка. 4 Она состоит из нескольких простых в реализации текстовых преобразований, текстовых представлений и алгоритма контролируемого обучения. 4