Методы построения признаков для работы с текстовыми данными работают следующим образом: 3
- Предварительная подготовка текста. 3 Длинные участки текста разбивают на более мелкие (абзацы, предложения, слова) и приводят к единообразному виду (единый регистр слов, отсутствие знаков пунктуации, расшифрованные сокращения). 3 Также проводят стемминг (приведение слова к его корню путём устранения суффиксов, приставок, окончаний), лемматизацию (приведение слова к смысловой канонической форме) и чистку (удаление стоп-слов, которые не несут смысловой нагрузки). 3
- Векторизация. 3 Преобразованная в числовую форму последовательность слов преобразуется в вектор с помощью специальных моделей. 3 Например, модели «мешок слов» (bag of words). 3 Она не учитывает грамматику или порядок слов и нужна для определения количества вхождений отдельных слов в анализируемый текст. 3 На практике для этого создают вектор длиной в словарь, для каждого слова считают количество вхождений в текст и это число подставляют на соответствующую позицию в векторе. 3
- Использование TF-IDF. 25 Этот метод отражает важность слова в документе по сравнению со всем корпусом. 2 Основная идея в том, что слово, которое часто встречается в документе, но редко во всём корпусе, является более информативным, чем слово, которое часто встречается как в документе, так и в корпусе. 2
Также пространство признаков расширяют различными эвристическими статистиками, так как они могут скрывать в себе важную информацию об объекте, которую сложно выявить алгоритму на основе векторных значений описаний. 1 К подобным признакам относят длину текста, отношение длины запроса к длине заголовка и так далее. 1