Вопросы к Поиску с Алисой
Разница между One-Hot Encoding и векторным представлением слов заключается в подходах к преобразованию слов в числовые векторы. blog.skillfactory.ru habr.com
One-Hot Encoding (прямое кодирование) — простая технология, в которой каждому слову в словаре присваивается уникальный индекс. blog.skillfactory.ru Затем слова представляют в виде векторов, где все элементы равны нулю, кроме одного, который соответствует индексу этого слова. blog.skillfactory.ru Например, в словаре из трёх слов [«кошка», «собака», «птица»**] слово «кошка» будет представлено вектором [1, 0, 0], слово «собака» — [0, 1, 0], а слово «птица» — [0, 0, 1]. blog.skillfactory.ru
Векторное представление слов (эмбеддинги, word embedding) — более продвинутая технология, в которой слова представляются в виде векторов низкой размерности. blog.skillfactory.ru Если слова близки по смыслу, их векторы будут похожи. blog.skillfactory.ru Чтобы добиться такого результата, эмбеддинги обучают на больших массивах текстов с использованием нейронных сетей. blog.skillfactory.ru
Таким образом, One-Hot Encoding не учитывает семантическую близость слов и частоту их встречаемости, а векторное представление слов способно улавливать семантические отношения между словами и получать более короткие векторы. blog.skillfactory.ru habr.com