Технология SpeechKit помогает Алисе распознавать голосовой запрос следующим образом: 1
- Голос отделяется от фонового шума. 1 Алгоритмы способны выделять акценты, диалекты, сленги и англицизмы из базы данных, состоящей из миллиардов фраз, произносимых в различных условиях, накопленной Яндексом. 1
- Запись разделяется на много маленьких фрагментов — фреймов. 5 На каждую секунду речи приходится сто фреймов, они длятся по 25 миллисекунд и идут внахлёст, чтобы информация на стыках не терялась. 5
- Каждый фрейм подвергается ряду преобразований, в результате которых получается около 40 коэффициентов, описывающих его частотные характеристики. 5 На основании этих данных акустическая модель может предположить, частью какой фонемы является фрейм. 5
Таким образом, задача системы распознавания речи — «расслышать» в этих звуках буквы (вернее, соответствующие им фонемы) и сложить их в слова. 5