Для разработки простых алгоритмов обработки текста на Python можно использовать следующие подходы:
- Очистка текста от неалфавитных символов. habr.com Функция re.sub позволяет заменить всё, что подходит под шаблон, на указанную строку. habr.com Например, так можно заменить всё, что не является словами, на пробелы. habr.com
- Токенизация. habr.com Метод позволяет разделить текст на токены, то есть на слова или предложения. habr.com
- Лемматизация. habr.com Позволяет привести словоформу к лемме — её нормальной (словарной) форме. habr.com Другими словами, лемматизация схожа с выделением основы каждого слова в предложении. habr.com
- Удаление стоп-слов. habr.com Под стоп-словами обычно понимаются артикли, междометия, союзы и т. д., которые не несут смысловой нагрузки. habr.com В NLTK есть предустановленный список стоп-слов. habr.com
- Векторизация текста или преобразование текста в численную форму. habr.com Алгоритмы машинного обучения не умеют работать с текстом, поэтому необходимо превратить текст в цифры. habr.com Например, в пакете scikit-learn есть модуль CountVectorizer, который преобразовывает входной текст в матрицу, значениями которой являются количества вхождения слова в текст. habr.com
Также для анализа текста на Python можно использовать библиотеку Gensim, например, для извлечения ключевых слов и фраз. sky.pro