Распознавание речи для автоматического перевода в современных сервисах работает в три этапа: 2
Например, в сервисе перевода видео в «Яндекс Браузере» алгоритм выглядит так: пользователь нажимает на кнопку перевода видео, после чего браузер распознаёт аудиодорожку или видео целиком. 1 Запись передаётся функции распознавания речи, которая превращает её в набор слов с метаинформацией: каким голосом были сказаны слова — мужским или женским, в какой момент времени и так далее. 1 Затем запускается нейросеть, известная как речанкер: она объединяет отдельно стоящие слова в группы, выделяет акценты и разбивает их на предложения. 1 Далее они передаются «Яндекс Переводчику», он переводит получившийся после работы речанкера английский текст на русский. 1 В конце система сопоставляет метаинформацию и переведённый текст и синтезирует его в речь на русском языке так, чтобы попасть в тайминги и сохранить паузы. 1