Некоторые основные проблемы, которые возникают при создании и использовании лингвистических корпусов:
- Проблема представительности. 1 Корпус состоит из конечного числа текстов, но он должен адекватно отражать лексико-грамматические феномены, типичные для всего объёма текстов в соответствующем языке. 1 Для представительности важен как размер, так и структура корпуса. 1
- Проблема разметки. 1 Для каждого корпуса обязательны такие этапы, как токенизация (разбиение на орфографические слова), лемматизация (приведение словоформ к словарной форме) и морфологический анализ. 1
- Проблема представления результатов. 1 В больших корпусах поиск по запросу может выдавать сотни и даже тысячи результатов (контекстов употребления), которые невозможно просмотреть в ограниченное время. 1
- Проблема сбалансированности. 3 Под сбалансированностью понимается пропорциональное представление в корпусе текстов различных периодов, жанров, стилей, авторов и т. п.. 3
- Проблема доступа. 3 Многие корпусы являются платными, а доступ к некоторым из них в режиме онлайн отсутствует. 3
- Проблема дублирования текстов. 4 Если в корпусе один и тот же текст будет повторяться (пусть даже частично), это создаст перекос в количественных данных, например, некоторое слово в результатах поиска будет отображаться чаще, чем оно реально встречается в языке. 4