Технология глубокого обучения в современных голосовых модуляторах работает следующим образом:
- Для распознавания пробуждающего слова система обучается на несегментированных данных фрагментов, в которые включено и не включено пробуждающее слово. habr.com
- Для распознавания пользовательских команд модель обучается на сегментированных фрагментах, чтобы иметь возможность распознавать паттерны речи, окружающие каждое отдельное слово во фразе. habr.com
- Обе модели обучаются на большом разнообразии речевых сэмплов (например, на сэмплах фраз детей, женщин и мужчин из разных стран, разных национальностей, с различными интонациями, высотой тона и так далее). habr.com Это позволяет системе достичь приемлемой точности вне зависимости от таких переменных, как пол, акцент, интонация или даже фоновый шум. habr.com
- Когда система научится стабильно преобразовывать пользовательскую команду из аудио в текст, она может интерпретировать текст в команду при помощи NLU, то есть определять намерение пользователя и основные элементы информации в команде, необходимые для её выполнения. habr.com
- Далее компонент Dialogue Manager выполняет соответствующее действие. habr.com Это может быть запуск какого-то приложения, создание напоминания или события календаря, доступ к удалённым ресурсам и/или взаимодействие с пользователем голосовым ответом, генерируемым компонентом Text-to-Speech (TTS). habr.com
В основе современных моделей синтеза речи также лежит глубокое обучение. letaibe.media Эти модели обрабатывают данные во временной и частотной областях, чтобы захватить различные особенности речевого сигнала. letaibe.media