Технология автоматического перевода в Яндекс Браузере работает с помощью шести нейросетей: 1
- Первая определяет язык говорящего. 1 Если он говорит на поддерживаемом языке, то браузер предложит перевести содержимое на русский. 1
- Вторая переводит речь в текст. 1 В полученной модели создаётся аудиодорожка, из которой нейросеть удаляет лишние звуки. 1 Она же удаляет слова-паразиты, делая итоговый текст «чище». 1
- Третья нормализует текст и расставляет знаки препинания. 1 То есть она получает набор переведённых слов, составляет из него грамотные предложения и занимается пунктуацией, сохранив изначальный смысл. 1
- Четвёртая определяет количество спикеров, их пол и применяемые местоимения. 1 Вычисляется тип голоса (мужской или женский) по частоте звучания: у мужчин — 80–150 Гц, у женщин — 150–250 Гц. 1
- Пятая занимается переводом текста на русский язык. 1
- Шестая синтезирует речь и синхронизирует её с роликом. 1 Она делает паузы одновременно с говорящим человеком, а также соблюдает его темп речи, иногда ускоряясь или замедляясь. 1
При переводе обычных роликов нейросети получают аудиодорожку сразу целиком. 2 У них есть время её проанализировать, разбить речь на предложения и синтезировать озвучку на русском языке. 2 Во время работы с прямыми трансляциями такого запаса времени нет — технология работает почти как синхронный переводчик. 2
После того как знаки препинания расставлены, нейросеть выделяет из текста части, содержащие законченную мысль. 2 Именно они отправляются на перевод, который затем синтезируется и накладывается поверх оригинальной аудиодорожки. 2