Некоторые проблемы, которые могут возникать при подсчёте TF-IDF:
Для решения проблемы с длительным временем расчёта можно попробовать добавить в таблицу токенов дополнительный столбец, например rev_frequency, и сохранять в нём количество документов, содержащих токен в определённой строке. 3 Тогда прямой запрос к этому столбцу можно будет делать очень быстро. 3
Для решения проблемы с нехваткой памяти можно попробовать сгенерировать датасет TF-IDF более удобным для памяти способом, разредить его и затем работать напрямую с моделями, которые поддерживают разреженные данные. 4