TF-IDF (Term Frequency — Inverse Document Frequency) — это статистический метод, который оценивает значимость слова в документе относительно всей коллекции документов. pro-seo.expert
Процесс работает на основе двух ключевых идей: gimal-ai.ru
- TF (Term Frequency) — частота слова в отдельном документе, то есть количество его появлений в тексте. gimal-ai.ru Рассчитывается по формуле: TF = Количество вхождений слова в документ / Общее количество слов в документе. pro-seo.expert Например, если слово «оптимизация» встречается 5 раз в документе из 1000 слов, то TF = 5 / 1000 = 0,005. pro-seo.expert
- IDF (Inverse Document Frequency) — обратная частота слова по всему корпусу, то есть важные слова встречаются не во всех документах. gimal-ai.ru Рассчитывается по формуле: IDF = log(Общее количество документов / Количество документов, содержащих слово). pro-seo.expert Если слово встречается в большом числе документов, его IDF будет низким, а если встречается редко — высоким. pro-seo.expert
Итоговый расчёт TF-IDF происходит как произведение TF и IDF: TF-IDF = TF × IDF. pro-seo.expert Чем выше значение TF-IDF, тем важнее слово для данного документа. pro-seo.expert
Такой подход помогает понизить вес часто встречающихся, но малоинформативных слов и выделить редкие, но значимые термины. gimal-ai.ru Например, слово «метро» в тексте о транспорте получит больший вес, чем слово «в», которое встречается почти в каждом документе. gimal-ai.ru