Технология глубокого обучения в современных голосовых модуляторах работает следующим образом:
- Для распознавания пробуждающего слова система обучается на несегментированных данных фрагментов, в которые включено и не включено пробуждающее слово. 1
- Для распознавания пользовательских команд модель обучается на сегментированных фрагментах, чтобы иметь возможность распознавать паттерны речи, окружающие каждое отдельное слово во фразе. 1
- Обе модели обучаются на большом разнообразии речевых сэмплов (например, на сэмплах фраз детей, женщин и мужчин из разных стран, разных национальностей, с различными интонациями, высотой тона и так далее). 1 Это позволяет системе достичь приемлемой точности вне зависимости от таких переменных, как пол, акцент, интонация или даже фоновый шум. 1
- Когда система научится стабильно преобразовывать пользовательскую команду из аудио в текст, она может интерпретировать текст в команду при помощи NLU, то есть определять намерение пользователя и основные элементы информации в команде, необходимые для её выполнения. 1
- Далее компонент Dialogue Manager выполняет соответствующее действие. 1 Это может быть запуск какого-то приложения, создание напоминания или события календаря, доступ к удалённым ресурсам и/или взаимодействие с пользователем голосовым ответом, генерируемым компонентом Text-to-Speech (TTS). 1
В основе современных моделей синтеза речи также лежит глубокое обучение. 2 Эти модели обрабатывают данные во временной и частотной областях, чтобы захватить различные особенности речевого сигнала. 2