Метод дистрибутивной семантики заключается в вычислении степени семантической близости между лингвистическими единицами (фонемами, морфемами, словами, словосочетаниями и предложениями) на основании их распределения в больших массивах текстовых данных (корпусах). 13
Суть метода заключается в следующем: 1
- Выбирается анализируемое слово или выражение. 1
- Собирается большое количество примеров контекстов его употребления из корпусов текстов или данных информантов. 1
- Эти контекстные примеры употребления классифицируются и группируются на основе общих признаков и характеристик. 1
- После этого выявляются особенности распределения анализируемого слова по разным группам контекстов, образуются классы его дистрибуции. 1
- Делается вывод о значении и смыслах данного слова или выражения на основе его принадлежности разным классам дистрибуции в языке. 1
Путём статистического анализа большого количества фактических контекстов употребления выявляются разные аспекты значения слова и формализуется его связь с контекстным окружением. 1