Некоторые методы тематического моделирования, которые хорошо работают на коротких текстах:
- Latent Dirichlet Allocation (LDA). 14 Вероятностная модель, которая основана на предположении, что каждый документ может быть представлен как смесь различных тем, а каждая тема связана с распределением слов. 4
- Non-Negative Matrix Factorization (NMF). 14 Метод позволяет выявить скрытые темы в текстовых данных и часто даёт более интерпретируемые результаты благодаря неотрицательности элементов матриц. 4
- BERT (Bidirectional Encoder Representations from Transformers). 1 Трансформерная модель, которая показывает хорошие результаты на коротких текстах. 15
Также для обработки коротких текстов можно использовать инструмент LibShortText с открытым исходным кодом. 3