Некоторые алгоритмы, которые используются для обработки коротких текстов в компьютерных науках:
- Кодирование Хаффмена. 3 Это основа современного сжатия текстов. 3 Суть алгоритма в анализе частотности появления символов в тексте и построении на его основе дерева из этих символов. 3
- Алгоритмы сжатия семейства LZ. 1 Например, DEFLATE, оптимизированный для быстрого разархивирования и высокой степени сжатия. 1
- Модель PPM. 1 Использует контекст — множество символов в несжатом потоке, предшествующих данному, чтобы предсказывать значение символа на основе статистических данных. 1
- Преобразование Барроуза-Уилера (блочно-сортирующее сжатие). 1 Сам по себе не является алгоритмом сжатия, но используется в комбинации с другими алгоритмами. 1
- Алгоритмы тоновой классификации коротких текстов. 2 Например, метод опорных векторов (SVM) и метод Naïve Bayes. 2