Один из основных принципов работы с системами обработки естественного языка (NLP) — построение конвейера (пайплайна). 12 Суть этого подхода в том, чтобы разбить задачу на ряд последовательных подзадач и решать каждую из них отдельно. 2
Основные этапы конвейера:
- Сегментация и токенизация. 1 Текст делят на предложения, а те — на отдельные слова. 1
- Определение контекстно-независимых признаков. 1 Они характеризуют каждый из токенов и не зависят от рядом стоящих элементов. 1
- Уточнение значимости и применение фильтра к стоп-словам. 1 Для русского и английского языков характерно множество вспомогательных частиц и артиклей, которые засоряют статистический анализ ввиду своей частоты. 1
- Допуск кореференции. 1 Местоимения, заменяющие названия или имена собственные, могут адекватно интерпретироваться человеком в процессе обычного чтения, однако система, которая рассматривает каждое предложение один раз, не отслеживает их взаимосвязь. 1
- Парсинг зависимостей. 1 Формируется древовидная структура, где токенам присваивается один родитель, и устанавливается тип связи. 1
- Преобразование текстового содержания в векторное представление. 1 Позволяет выделить слова, применяемые в схожем или идентичном контексте. 1
- Формирование модели, соответствующей заданной цели — например, классифицирующей или генерирующей новый текст. 1