Возможно, имелись в виду различия между «веб-корпусами», то есть корпусами, собранными из интернета, и текстовыми корпусами, которые представляют собой коллекции файлов, хранящихся на компьютере. ru.wikipedia.org sysblok.ru
Некоторые различия:
- Источник текстов: веб-корпус создан путём обработки интернет-источников, для этого используют автоматизированные процедуры, которые определяют язык и кодировку отдельных веб-страниц, удаляют шаблоны, элементы навигации, ссылки и рекламу. ru.wikipedia.org Текстовый корпус представляет собой коллекцию файлов, которые служат «образцом» языка, на котором удобно проверять разные гипотезы. sysblok.ru
- Размер: веб-корпус может быть больше традиционных корпусов, его создание дешевле. ru.wikipedia.org
- Доступность: чаще всего корпус текстов, собранный из интернета, доступен через специализированные поисковые машины, которые позволяют выбирать примеры употребления различных языковых конструкций. habr.com Скачивать такие корпуса целиком нельзя, так как входящие в них тексты чаще всего защищены копирайтом. habr.com Текстовые корпусы, как правило, можно скачивать целиком, вместе с разметкой. habr.com
Корпус текстов — это лингвистическая база данных, которая включает тексты, разные метаданные, относящиеся к этим текстам, а также грамматические разборы входящих в них слов и предложений. habr.com