Размер словаря естественного языка определяется путём исключения повторяющихся с определённой частотой слов. 1 Для этого используют технологию тематического моделирования, в основе которой лежит частота повторяемости слов. 1 При проведении моделирования можно исключать от 0,5 до 5% наиболее часто встречающихся слов, а также слова, встречавшиеся лишь однажды. 1
Также размер словаря зависит от размера корпуса текстов: чем больше человек написал за свою жизнь, тем обычно больше разных слов встречается в его текстах. 2
Ещё один метод оценивания размера словаря — использование коэффициента лексического разнообразия. 2 Его рассчитывают с помощью экстраполяции эмпирически задаваемой функции, которая выражает зависимость коэффициента лексического разнообразия от объёма текстового корпуса. 2
Кроме того, для измерения пассивного словарного запаса используют статистический подход. 4 Он предполагает проверку знания не всех слов языка, а небольшого количества специально отобранных тестовых слов, каждое из которых представляет целую группу слов примерно одинаковой частотности. 4