Для распознавания признаков текста в потоке информации можно использовать интеллектуальный анализ текста (Text Mining) — направление искусственного интеллекта и математической лингвистики. 1
Некоторые методы, которые применяются для обработки текста и извлечения из него признаков:
- Токенизация. 1 Длинные участки текста разбиваются на более мелкие (абзацы, предложения, слова). 1
- Нормализация. 1 Текст приводится к единообразному виду (единый регистр слов, отсутствие знаков пунктуации, расшифрованные сокращения, словесное написание чисел и т. д.). 1
- Стеммизация. 1 Слово приводится к его корню путём устранения придатков (суффикса, приставки, окончания). 1
- Лемматизация. 1 Слово приводится к смысловой канонической форме (инфинитив для глагола, именительный падеж единственного числа — для существительных и прилагательных). 1
- Чистка. 1 Из текста удаляются стоп-слова, которые не несут смысловой нагрузки (артикли, междометья, союзы, предлоги и т. д.). 1
- Векторизация. 1 Очищенная и нормализованная последовательность слов преобразуется в числовые вектора. 1
Также для распознавания текста могут использоваться системы оптического распознавания символов (OCR). 5 Они применяются в программах, связанных с распознаванием текста, и работают по определённому алгоритму. 5