В современных онлайн-переводчиках, например в «Яндекс Переводчике», голосовой синтез работает по следующему алгоритму: vc.ru
- Пользователь нажимает на кнопку перевода видео, после чего браузер распознаёт аудиодорожку или видео целиком. vc.ru
- Запись передаётся функции распознавания речи, которая превращает её в набор слов с метаинформацией: каким голосом были сказаны слова — мужским или женским, в какой момент времени и так далее. vc.ru
- Запускается нейросеть, известная как речанкер: она объединяет отдельно стоящие слова в группы, выделяет акценты и разбивает их на предложения. vc.ru
- Предложения передаются «Яндекс Переводчику», который переводит получившийся после работы речанкера английский текст на русский. vc.ru
- В конце система сопоставляет метаинформацию и переведённый текст и синтезирует его в речь на русском языке так, чтобы попасть в тайминги и сохранить паузы. vc.ru Это необходимо, чтобы вместить перевод в оригинальную аудиодорожку. vc.ru
Для синтеза речи в онлайн-переводчиках используют разные методы, например компилятивный или параметрический. www.mtt.ru www.mango-office.ru
Компилятивная модель собирает речь из отдельных звуковых единиц: букв и слогов. www.mango-office.ru Источником этих звуков выступает заранее записанный голос диктора. www.mango-office.ru
Параметрическая модель выдаёт более развёрнутую речь, максимально приближённую к человеческой. www.mango-office.ru Система учитывает речевые паузы, интонацию, меняет тембр голоса. www.mango-office.ru