Некоторые методы морфемной сегментации слов в русском языке:
Ассоциативный анализ по двум рядам. homepages.tversu.ru Метод связан с именем А. М. Пешковского. homepages.tversu.ru Например, слово «стекло» членят на две значимые части, используя возможность заполнить вертикальный и горизонтальный ряды. homepages.tversu.ru
Система Morfessor. www.lspl.ru www.ispras.ru Метод основан на машинном обучении без учителя по большой неразмеченной коллекции текстов. www.ispras.ru Основная идея — поиск минимального набора морфем, с помощью которого можно сегментировать все слова обрабатываемой коллекции текстов. www.ispras.ru
Метод деревьев решений с градиентным бустингом (GBDT). istina.msu.ru www.lspl.ru Этот метод более простой и интерпретируемый в сравнении с нейросетевыми методами, но достаточно мощный для решения задач компьютерной лингвистики. istina.msu.ru
Модель на базе свёрточных нейронных сетей (CNN). istina.msu.ru www.lspl.ru Модель протестирована и обучена на данных словаря Тихонова. istina.msu.ru Для учёта данных о последовательностях букв используют окно величиной 5 букв. istina.msu.ru
Двунаправленная нейронная LSTM-сеть (Bi-LSTM). www.ispras.ru Во всех моделях задача морфемного разбора рассматривается как задача классификации букв. www.ispras.ru Модели различаются набором классов букв: CNN-модель классифицирует каждую букву на 22 различных класса, а модели GBDT и Bi-LSTM используют сокращённый набор из 10 классов. www.ispras.ru
Примеры полезных ответов Поиска с Алисой на вопросы из разных сфер. Вопросы сгенерированы нейросетью YandexGPT для актуальных тем, которые определяются на базе обобщённых запросов к Поиску с Алисой.