Технология SpeechKit, используемая голосовым помощником «Алиса», работает следующим образом: 2
- Звук проходит через клиентскую библиотеку SpeechKit. 2 Через неё, как через единую точку входа, звук идёт на сервер, обрабатывается и возвращается в интерфейс Алисы в виде текста и звука. 2
- Для распознавания речи слова делятся на звуковые сегменты — фонемы. 2 Система автоматического распознавания речи делит звук на пересекающиеся отрезки по 20 миллисекунд шагами по 10. 2 Такие отрезки называются сенонами: всего их выделяют около 4000, и они составляют начало, середину и конец определённой фонемы. 2
- Модель распознавания речи определяет вероятность появления каждой последующей фонемы, исходя из фонотактических правил языка. 2
- Классификационные модели классифицируют пользовательский ввод и выбирают самые лучшие гипотезы для перевода голоса в текст. 2 После этого запрос передают Алисе, и она пытается понять, к какой категории он относится. 2
SpeechKit за доли секунды высокоточно распознаёт речь во всём её многообразии и стилистике. 3