Для распознавания признаков текста в потоке информации можно использовать интеллектуальный анализ текста (Text Mining) — направление искусственного интеллекта и математической лингвистики. bigdataschool.ru
Некоторые методы, которые применяются для обработки текста и извлечения из него признаков:
- Токенизация. bigdataschool.ru Длинные участки текста разбиваются на более мелкие (абзацы, предложения, слова). bigdataschool.ru
- Нормализация. bigdataschool.ru Текст приводится к единообразному виду (единый регистр слов, отсутствие знаков пунктуации, расшифрованные сокращения, словесное написание чисел и т. д.). bigdataschool.ru
- Стеммизация. bigdataschool.ru Слово приводится к его корню путём устранения придатков (суффикса, приставки, окончания). bigdataschool.ru
- Лемматизация. bigdataschool.ru Слово приводится к смысловой канонической форме (инфинитив для глагола, именительный падеж единственного числа — для существительных и прилагательных). bigdataschool.ru
- Чистка. bigdataschool.ru Из текста удаляются стоп-слова, которые не несут смысловой нагрузки (артикли, междометья, союзы, предлоги и т. д.). bigdataschool.ru
- Векторизация. bigdataschool.ru Очищенная и нормализованная последовательность слов преобразуется в числовые вектора. bigdataschool.ru
Также для распознавания текста могут использоваться системы оптического распознавания символов (OCR). moluch.ru Они применяются в программах, связанных с распознаванием текста, и работают по определённому алгоритму. moluch.ru