Технология синхронного перевода видео в интернете, например, в Яндекс Браузере, работает на основе шести нейросетей: 3
- Первая определяет язык говорящего. 3 Если он говорит на поддерживаемом языке, то браузер предложит перевести содержимое на русский. 3
- Вторая переводит речь в текст. 3 В полученной модели создаётся аудиодорожка, из которой нейросеть удаляет лишние звуки и слова-паразиты. 3
- Третья нормализует текст и расставляет знаки препинания. 3 Она получает набор переведённых слов, составляет из него грамотные предложения и занимается пунктуацией, сохранив изначальный смысл. 3
- Четвёртая определяет количество спикеров, их пол и применяемые местоимения. 3 Вычисляется тип голоса (мужской или женский) по частоте звучания: у мужчин — 80–150 Гц, у женщин — 150–250 Гц. 3
- Пятая занимается переводом текста на русский язык. 3
- Шестая синтезирует речь и синхронизирует её с роликом. 3 Она делает паузы одновременно с говорящим человеком, а также соблюдает его темп речи, иногда ускоряясь или замедляясь. 3
Технология приглушает оригинальную озвучку и поверх накладывает сгенерированную речь. 1 Мужские голоса озвучиваются мужским голосом, женские — женским. 1 Технология умеет распознавать нескольких спикеров на одном видео, у каждого из них будет свой голос озвучки, чтобы зрители не запутались. 1