Перевод с помощью нейросети в Яндекс Браузере работает в несколько этапов: 14
- Пользователь нажимает на кнопку перевода видео. 1 Браузер распознаёт аудиодорожку или видео целиком. 1 Запись передаётся функции распознавания речи, которая превращает её в набор слов с метаинформацией: каким голосом были сказаны слова, в какой момент времени и так далее. 1
- Запускается нейросеть, известная как речанкер. 1 Она объединяет отдельно стоящие слова в группы, выделяет акценты и разбивает их на предложения. 1
- Далее они передаются «Яндекс Переводчику», он переводит получившийся после работы речанкера текст на русский. 1
- В конце система сопоставляет метаинформацию и переведённый текст и синтезирует его в речь на русском языке так, чтобы попасть в тайминги и сохранить паузы. 1 Это необходимо, чтобы вместить перевод в оригинальную аудиодорожку. 1
В озвучке видео принимает участие не одна, а сразу шесть нейросетей: 3
- Первая определяет язык говорящего. 3 Если он говорит на поддерживаемом языке, то браузер предложит перевести содержимое на русский. 3
- Вторая переводит речь в текст. 3 В полученной модели создаётся аудиодорожка, из которой нейросеть удаляет лишние звуки. 3 Она же удаляет слова-паразиты, делая итоговый текст «чище». 3
- Третья нормализует текст и расставляет знаки препинания. 3 То есть она получает набор переведённых слов, составляет из него грамотные предложения и занимается пунктуацией, сохранив изначальный смысл. 3
- Четвёртая определяет количество спикеров, их пол и применяемые местоимения. 3 Вычисляется тип голоса (мужской или женский) по частоте звучания: у мужчин — 80–150 Гц, у женщин — 150–250 Гц. 3
- Пятая занимается переводом текста на русский язык. 3
- Шестая синтезирует речь и синхронизирует её с роликом. 3 Она делает паузы одновременно с говорящим человеком, а также соблюдает его темп речи, иногда ускоряясь или замедляясь. 3