Корпусные методы применяются для сохранения и обработки большого объёма текстовых данных с помощью лингвистических корпусов — совокупностей текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. ru.wikipedia.org
Некоторые возможности применения корпусных методов:
- Наблюдение за поведением языковых единиц. www.lomonosov-fund.ru Корпусные исследования позволяют наблюдать за словами, словосочетаниями, грамматическими категориями, синтаксическими конструкциями в естественной языковой среде. www.lomonosov-fund.ru
- Формулировка, подтверждение или опровержение гипотез. www.lomonosov-fund.ru Статистические методы позволяют сделать это на большом объёме материала. www.lomonosov-fund.ru
- Оценка качества работы лингвистических модулей. www.lomonosov-fund.ru Например, корпус с морфологической разметкой, где каждому слову из текста приписана его исходная форма и грамматические характеристики, позволяет проверить, насколько точно работает система автоматического морфологического анализа. www.lomonosov-fund.ru
- Получение лингвостатистических данных. cyberleninka.ru Эта функция позволяет определить частоту использования тех или иных форм, слов или словосочетаний. cyberleninka.ru
- Применение в задачах машинного обучения. www.vestnik.vsu.ru Например, классификация текстов по различным критериям, где для повышения точности работы алгоритмов требуется подготовка большой обучающей выборки по каким-либо определённым критериям. www.vestnik.vsu.ru
Для работы с корпусами используются специальные программы — корпусные менеджеры. www.lomonosov-fund.ru Они обеспечивают сортировку результатов поиска, статистические подсчёты, составление конкордансов и словников на основе корпуса. www.lomonosov-fund.ru