Функция голосового перевода в онлайн-сервисах, например в «Яндекс Браузере», работает с помощью нескольких нейросетей: www.iphones.ru
- Первая нейросеть определяет язык говорящего. www.iphones.ru Если он говорит на поддерживаемом языке, то браузер предлагает перевести содержимое на русский. www.iphones.ru
- Вторая нейросеть переводит речь в текст. www.iphones.ru В полученной модели создаётся аудиодорожка, из которой удаляется лишние звуки и слова-паразиты. www.iphones.ru
- Третья нейросеть нормализует текст и расставляет знаки препинания. www.iphones.ru Она получает набор переведённых слов, составляет из него грамотные предложения и занимается пунктуацией, сохранив изначальный смысл. www.iphones.ru
- Четвёртая нейросеть определяет количество спикеров, их пол и применяемые местоимения. www.iphones.ru Вычисляется тип голоса (мужской или женский) по частоте звучания. www.iphones.ru
- Пятая нейросеть занимается переводом текста на русский язык. www.iphones.ru
- Шестая нейросеть синтезирует речь и синхронизирует её с роликом. www.iphones.ru Она делает паузы одновременно с говорящим человеком, а также соблюдает его темп речи, иногда ускоряясь или замедляясь. www.iphones.ru
Для перевода потоковых видео, таких как прямые трансляции, используется отдельный механизм — потоковый перевод. habr.com Он позволяет переводить контент почти в режиме реального времени. habr.com