Облачная обработка речи в голосовых помощниках работает по следующему алгоритму: selectel.ru
- Запуск голосового помощника. selectel.ru Пользователь произносит слова, чтобы запустить ассистента. selectel.ru Микрофон активируется, в его кольцевом буфере хранятся последние сотни миллисекунд аудио. selectel.ru Лёгкая нейросеть на устройстве решает, стоит ли запускать полноценную обработку. selectel.ru
- Анализ сигнала. cloud.vk.com Система получает голосовой сигнал, записывает и посылает на сервер. cloud.vk.com Сервер очищает сигнал от шумов и помех, затем делит запись на фонемы — фрагменты длиной до 25 миллисекунд. cloud.vk.com Каждый фрагмент сервер пропускает через акустическую модель, которая определяет, какие именно звуки произнесены. cloud.vk.com
- Расшифровка аудио. cloud.vk.com Речевые фрагменты записи сравнивают с эталонными произношениями слогов и слов из акустической модели. cloud.vk.com Система использует машинное обучение, чтобы подобрать фонетические варианты произнесённых слов и определить их контекст. cloud.vk.com
- Преобразование речи в текст. cloud.vk.com С помощью языковой модели алгоритм определяет порядок слов и подбирает нераспознанные слова по контексту. cloud.vk.com Полученная информация поступает в декодер, который объединяет данные от акустической и языковой моделей и преобразует их в текст. cloud.vk.com
- Определение намерения. selectel.ru Текст попадает в NLU-модуль, где трансформерная сеть разбирается, что имел в виду пользователь: извлекает ключевые слова, определяет намерение. selectel.ru
- Сверка запроса с готовыми сценариями. selectel.ru Intent matching сверяет запрос с готовыми сценариями: включить свет, проверить прогноз, запустить будильник. selectel.ru Если система распознаёт шаблон, она передаёт команду на исполнение. selectel.ru
- Генерация ответа. selectel.ru Сервер генерирует текст через NLG, который адаптируется под контекст. selectel.ru Затем TTS-модель озвучивает это, подстраивая интонацию под типичное поведение ассистента. selectel.ru
Вся обработка происходит за секунды, но за этим скрываются миллионы строк кода, вычисления на железе и в облаке, а также десятки проверок на точность. selectel.ru