Система голосового распознавания в Алисе работает на основе нейронных сетей и глубокого обучения (Deep Learning). 4
Процесс начинается с того, что микрофон устройства преобразовывает речь в поток данных, который передаётся Алисе. 2 Этот поток разбивается на короткие по времени фрагменты («фреймы»), они считываются с частотой в одну сотую секунды. 2
Фреймы пропускаются через фильтр, а затем, чтобы оставить только информацию о звуке, с ними выполняется несколько математических преобразований и упрощений. 2 Они основаны на опыте специалистов по речевым технологиям со всего мира. 2
На основе полученных коэффициентов голосовой помощник определяет голосовой запрос. 1 Иногда у него не получается понять фразу: в помещении шумно, у человека акцент, в речи есть диалекты. 1 Тогда ассистент достраивает слово из контекста всего предложения. 1 Для этого у технологии есть таблица вероятностей переходов, в которой описаны возможные последовательности букв в словах. 1
После того как помощник зафиксировал запрос и обработал его, система переносит запрос в нужный тематический раздел, где происходит сбор информации. 1 Например, если пользователь просит проверить курс валюты, помощник отправляет запрос в поисковик или сразу на специализированный сайт. 1
После того как ассистент нашёл информацию на запрос, он возвращается с голосовым ответом к пользователю. 1 Чтобы речь с ответом звучала естественно, для разработки голоса ассиента приглашают профессиональных дикторов или актёров, которые наговаривают тысячи часов речи. 1