Вопросы к Поиску с Алисой
Разница между TF (Term Frequency) и IDF (Inverse Document Frequency) при извлечении признаков из текстов заключается в том, что TF измеряет важность слова в контексте отдельного документа, а IDF — в контексте всей коллекции документов. habr.com gimal-ai.ru
TF (частота термина) обозначает, насколько часто определённое слово появляется в данном документе. habr.com Можно рассматривать TF как вероятность найти слово в тексте. www.geeksforgeeks.org
IDF (обратная частота документа) измеряет, насколько уникально слово по всей коллекции документов. habr.com Слова, которые появляются в большинстве документов, имеют низкое IDF, так как они не вносят большой информационной ценности. habr.com
Эти понятия используются в методе TF-IDF (Term Frequency-Inverse Document Frequency), который позволяет выделять важные слова в текстах. gimal-ai.ru Формула расчёта TF-IDF комбинирует понятия TF и IDF, чтобы вычислить важность каждого слова в каждом документе. habr.com