Некоторые направления развития современных алгоритмов для автоматической категоризации текста:
- Использование модели текста, разработанной с помощью словарно-ориентированного алгоритма сжатия данных. cyberleninka.ru Такая модель позволяет учитывать не только лексическую, но и композиционную семантику документа, а также упростить этап индуктивного построения классификатора документов. cyberleninka.ru
- Применение LLM-классификаторов. habr.com Для их разработки не требуется предварительно собирать и размечать большой объём данных. habr.com Достаточно написать промпт, что значительно ускоряет процесс. habr.com Однако без предварительно обученного датасета точность LLM-классификатора может быть ниже, чем у ML-классификатора. habr.com
- Использование частотного анализа слов по методу TF-IDF. loginom.ru Он позволяет оценить важность слова в контексте категории и всего объёма текстовых данных в целом. loginom.ru Чем чаще слово употребляется в контексте одной категории, тем выше вероятность того, что текстовое сообщение должно быть приравнено к ней. loginom.ru
Также разрабатываются, например, системы microTC, которые представляют собой минималистичную и широкую систему, способную решать задачи классификации текстов независимо от предметной области и языка. paperswithcode.com Она состоит из нескольких простых в реализации текстовых преобразований, текстовых представлений и алгоритма контролируемого обучения. paperswithcode.com