Для автоматического анализа словообразования используются различные алгоритмы, например:
- Методы на базе машинного обучения. 1 Хорошо зарекомендовали себя методы на основе идей дистрибутивной семантики, такие как GloVe и Word2Vec. 1 Ещё один метод получения векторных представлений слов — FastText, который при обучении использует n-граммы букв текста. 1
- Модель деревьев решений с градиентным бустингом. 1 С её помощью можно классифицировать буквы слова на 8 классов, выделяя границы морфем (приставок, корней, суффиксов и окончаний). 1
- Алгоритм на базе ансамбля свёрточных нейронных сетей. 3 Например, с его помощью генерируются автоматические разборы морфемной структуры слов, отсутствующих в словаре морфемного анализа. 3
- Словарный метод. 4 При нём однажды встреченные неизвестные слова, опознанные как сложные, вносятся в словарь наряду с уже имеющимися там элементами. 4
- Статистический метод. 4 Система заранее «обучается» распознаванию неологизмов на имеющемся корпусе, содержащем сложные слова. 4 Обучение проводится при помощи стандартных статистических моделей, на вход которым подаются релевантные признаки: длина слова, его буквенный состав, окружение и т. д.. 4