Корпус языка строится на основе принципа репрезентативности. 27 Под ним понимается способность корпуса отражать все свойства проблемной области, релевантные для данного типа лингвистических исследований. 2 Тексты в корпус выбираются не случайно, а в соответствии с областью реализаций интересующих исследователя языковых явлений. 2
Ещё один принцип — полнота корпуса. 2 Задача создателей корпуса заключается в сборе большего количества текстов, относящихся к тому подмножеству языка, для изучения которого корпус создаётся. 2
Для решения различных лингвистических задач необходимо, чтобы тексты и отдельные языковые единицы внутри текстов содержали дополнительную лингвистическую и металингвистическую информацию — разметку (аннотацию). 2 В современных корпусах помимо метаразметки (отражающей различную экстралингвистическую информацию о тексте, включая его название, автора, жанровую принадлежность и т.п.) содержится разметка, соответствующая различным уровням лингвистического описания — морфологическая, синтаксическая, фонетическая и др.. 2
Разница в отечественном и зарубежном подходе к построению корпусов языка заключается в том, что взгляды отечественных учёных и их зарубежных коллег относительно практики конструирования лингвистических корпусов схожи. 3 По своему наполнению корпусы русского и других языков (например, европейских) устроены идентично: в них присутствует информация обо всех гранях языка, например, стилистическая многожанровость, случаи употребления особых коллокаций и фразеологизмов, указаны примеры полисемии и омонимии. 3