Процесс перевода видео, например, в «Яндекс-браузере», состоит из нескольких этапов: 2
- Первая нейросеть определяет язык спикеров. 1 Если они говорят на языке, который поддерживается, браузер предложит перевести видео. 1
- Вторая нейросеть переводит речь спикеров в текст. 1 Модель получает аудиодорожку, из неё она должна вычистить все посторонние звуки. 1 После всех обработок остаётся последовательный набор слов — с ним будут работать другие нейросети. 1
- Третья нейросеть нормализует текст и расставляет знаки препинания. 1 Нормализация — это преобразование текста в одну нормальную словарную форму. 1 Например, расшифровка сокращений. 1 На этом этапе последовательность слов также нарезается в предложения. 1 При их составлении модель должна сохранить изначальный смысл. 1
- Когда текст переведён, его нужно озвучить и совместить с видеорядом. 2
Длина фраз на русском и английском языках отличается — русские, как правило, ощутимо длиннее. 2 Здесь на помощь снова приходит нейронная сеть. 2 Она выполняет то, что у синхронных переводчиков называется речевой компрессией: сокращает паузы между словами и, если необходимо, немного ускоряет темп речи. 2