Вопросы к Поиску с Алисой
Некоторые проблемы, которые могут возникать при подсчёте TF-IDF:
Для решения проблемы с длительным временем расчёта можно попробовать добавить в таблицу токенов дополнительный столбец, например rev_frequency, и сохранять в нём количество документов, содержащих токен в определённой строке. github.com Тогда прямой запрос к этому столбцу можно будет делать очень быстро. github.com
Для решения проблемы с нехваткой памяти можно попробовать сгенерировать датасет TF-IDF более удобным для памяти способом, разредить его и затем работать напрямую с моделями, которые поддерживают разреженные данные. stackoverflow.com