Технология SpeechKit, используемая голосовым помощником «Алиса», работает следующим образом: nplus1.ru
- Звук проходит через клиентскую библиотеку SpeechKit. nplus1.ru Через неё, как через единую точку входа, звук идёт на сервер, обрабатывается и возвращается в интерфейс Алисы в виде текста и звука. nplus1.ru
- Для распознавания речи слова делятся на звуковые сегменты — фонемы. nplus1.ru Система автоматического распознавания речи делит звук на пересекающиеся отрезки по 20 миллисекунд шагами по 10. nplus1.ru Такие отрезки называются сенонами: всего их выделяют около 4000, и они составляют начало, середину и конец определённой фонемы. nplus1.ru
- Модель распознавания речи определяет вероятность появления каждой последующей фонемы, исходя из фонотактических правил языка. nplus1.ru
- Классификационные модели классифицируют пользовательский ввод и выбирают самые лучшие гипотезы для перевода голоса в текст. nplus1.ru После этого запрос передают Алисе, и она пытается понять, к какой категории он относится. nplus1.ru
SpeechKit за доли секунды высокоточно распознаёт речь во всём её многообразии и стилистике. yandex.cloud