Вопросы к Поиску с Алисой
Модель Word2vec принимает большой текстовый корпус в качестве входных данных и сопоставляет каждому слову вектор, выдавая координаты слов на выходе. colab.research.google.com Сначала она создаёт словарь, «обучаясь» на входных текстовых данных, а затем вычисляет векторное представление слов. colab.research.google.com
Векторное представление основывается на контекстной близости: слова, встречающиеся в тексте рядом с одинаковыми словами (а следовательно, имеющие схожий смысл), в векторном представлении будут иметь близкие координаты векторов-слов. colab.research.google.com neerc.ifmo.ru Для вычисления близости слов используется косинусное расстояние между их векторами. colab.research.google.com
Существуют две основные архитектуры модели Word2vec: CBOW (Continuous Bag of Words) и Skip-gram. habr.com www.scaler.com
CBOW предсказывает текущее слово на основе контекста вокруг него. habr.com Например, для фразы «синее небо над головой» модель CBOW будет пытаться предсказать слово «небо» на основе контекстных слов «синее», «над», «головой». habr.com CBOW быстро обрабатывает большие объёмы данных, но менее эффективен для редких слов. habr.com
Skip-gram, наоборот, использует текущее слово для предсказания слов в его контексте. habr.com Для того же примера, модель Skip-gram будет пытаться предсказать слова «синее», «над», «головой» на основе слова «небо». habr.com Skip-gram медленнее обрабатывает данные, но лучше работает с редкими словами и менее частыми контекстами. habr.com