CBOW (Continuous Bag of Words) предсказывает текущее слово на основе контекста вокруг него. habr.com www.geeksforgeeks.org Контекст определяется как набор слов вокруг целевого слова в пределах заданного окна. habr.com
Процесс предсказания: habr.com
- Входной слой. habr.com На вход модели подаются контекстные слова. habr.com Они представляются в виде векторов, где каждый вектор имеет размерность, равную размеру словаря, и содержит 1 на позиции, соответствующей индексу слова в словаре, и 0 в остальных позициях. habr.com
- Скрытый слой. habr.com Векторы входных слов умножаются на матрицу весов между входным и скрытым слоем, результатом чего является вектор скрытого слоя. habr.com Для CBOW вектора контекстных слов обычно усредняются перед передачей на следующий слой. habr.com
- Выходной слой. habr.com Вектор скрытого слоя умножается на матрицу весов между скрытым и выходным слоем, результат чего проходит через softmax-функцию для получения вероятностей каждого слова в словаре быть целевым словом. habr.com Цель обучения — максимизировать вероятность правильного целевого слова. habr.com
Skip-Gram, в отличие от CBOW, предсказывает контекстные слова для данного целевого слова. habr.com www.geeksforgeeks.org Это слово на входе модели используется для предсказания слов в его контексте в пределах заданного диапазона слов (называют окном). habr.com
Процесс предсказания: habr.com
- Входной слой. habr.com Входом является целевое слово, представленное вектором one-hot. habr.com
- Скрытый слой. habr.com Вектор целевого слова умножается на матрицу весов, ведущую к скрытому слою. habr.com
- Выходной слой. habr.com В отличие от CBOW, где выходной слой представляет собой один softmax, в Skip-Gram для каждого слова в контексте используется отдельный softmax, что означает, что модель пытается предсказать каждое контекстное слово отдельно. habr.com Цель обучения — максимизировать вероятность появления реальных контекстных слов для данного целевого слова. habr.com