Метод дистрибутивной семантики заключается в вычислении степени семантической близости между лингвистическими единицами (фонемами, морфемами, словами, словосочетаниями и предложениями) на основании их распределения в больших массивах текстовых данных (корпусах). textarget.ru ru.wikipedia.org
Суть метода заключается в следующем: textarget.ru
- Выбирается анализируемое слово или выражение. textarget.ru
- Собирается большое количество примеров контекстов его употребления из корпусов текстов или данных информантов. textarget.ru
- Эти контекстные примеры употребления классифицируются и группируются на основе общих признаков и характеристик. textarget.ru
- После этого выявляются особенности распределения анализируемого слова по разным группам контекстов, образуются классы его дистрибуции. textarget.ru
- Делается вывод о значении и смыслах данного слова или выражения на основе его принадлежности разным классам дистрибуции в языке. textarget.ru
Путём статистического анализа большого количества фактических контекстов употребления выявляются разные аспекты значения слова и формализуется его связь с контекстным окружением. textarget.ru