Формирование алгоритмов машинного обучения на основе отзывов пользователей включает несколько этапов: 1
- Токенизация. 1 Разбиение каждого отзыва на отдельные слова (токены). 1 Например, текст «Иногда цены приемлемые» превращается в список [«иногда», «цены», «приемлемые»]. 1
- Создание таблицы. 1 В столбцах — токены, в колонках — номера отзывов. 1 Для каждого отзыва записывается количество вхождений каждого токена. 1
- Преобразование текстовых данных в числовые. 5 Один из распространённых методов — использование частоты появления каждого слова в данных. 5 Создаётся словарь, который сопоставляет каждое слово с частотой его появления. 5
- Применение преобразования TF-IDF. 5 Его суть в том, что частота элемента умножается на обратную частоту документа. 5 Это позволяет перевести функцию count в значения, подходящие для подачи в классификатор, а также придать большее значение редким или менее частым словам. 5
- Построение модели. 5 Преобразование TF-ID возвращает матрицу признаков, которую можно использовать для обучения модели классификатора. 5
Ещё один подход к обработке отзывов — использование алгоритма латентного размещения Дирихле (LDA). 1 Он рассматривает каждый отзыв как смесь из некого количества тем и оценивает вероятность появления группы слов вместе (принадлежности группы слов к той или иной теме). 1 Количество тем указывается алгоритму, после чего он работает самостоятельно. 1