Формирование алгоритмов машинного обучения на основе отзывов пользователей включает несколько этапов: 4-bis.ru
- Токенизация. 4-bis.ru Разбиение каждого отзыва на отдельные слова (токены). 4-bis.ru Например, текст «Иногда цены приемлемые» превращается в список [«иногда», «цены», «приемлемые»]. 4-bis.ru
- Создание таблицы. 4-bis.ru В столбцах — токены, в колонках — номера отзывов. 4-bis.ru Для каждого отзыва записывается количество вхождений каждого токена. 4-bis.ru
- Преобразование текстовых данных в числовые. nuancesprog.ru Один из распространённых методов — использование частоты появления каждого слова в данных. nuancesprog.ru Создаётся словарь, который сопоставляет каждое слово с частотой его появления. nuancesprog.ru
- Применение преобразования TF-IDF. nuancesprog.ru Его суть в том, что частота элемента умножается на обратную частоту документа. nuancesprog.ru Это позволяет перевести функцию count в значения, подходящие для подачи в классификатор, а также придать большее значение редким или менее частым словам. nuancesprog.ru
- Построение модели. nuancesprog.ru Преобразование TF-ID возвращает матрицу признаков, которую можно использовать для обучения модели классификатора. nuancesprog.ru
Ещё один подход к обработке отзывов — использование алгоритма латентного размещения Дирихле (LDA). 4-bis.ru Он рассматривает каждый отзыв как смесь из некого количества тем и оценивает вероятность появления группы слов вместе (принадлежности группы слов к той или иной теме). 4-bis.ru Количество тем указывается алгоритму, после чего он работает самостоятельно. 4-bis.ru