При работе с текстовыми документами используется метод Text Mining — подход к извлечению знаний из больших коллекций документов, основанный на статистических методах. 2
Он позволяет, например, автоматически группировать похожие тексты или выявлять наиболее важные темы в огромных коллекциях документов. 2 При этом Text Mining работает не с «сырым» текстом, а с его числовым представлением, что позволяет напрямую интегрировать результаты анализа в процессы предиктивного моделирования. 2
Для этого все документы разбиваются на отдельные термины. 2 Каждый из них представляется в виде числового вектора, отдельным элементом которого является количество вхождений конкретного термина в данный документ. 2
Также при анализе текстовых документов могут использоваться и другие методы, например: