Технология перевода видео с помощью нейросетей работает в несколько этапов: 1
- Распознавание речи. 1 Голос превращают в текст. 1
- Обработка текста нейросетью. 1 Она вычищает мусор, группирует слова в смысловые сегменты и расставляет знаки препинания. 3
- Перевод текста. 1 Получившийся текст отправляют на перевод. 1
- Озвучка и совмещение с видеорядом. 1 Здесь снова помогает нейронная сеть: она сокращает паузы между словами и, если необходимо, немного ускоряет темп речи. 1
Например, в Яндекс Браузере над задачей перевода видео работают шесть нейросетей: 2
- Первая определяет, есть ли на видео речь. 2
- Вторая определяет язык. 2
- Третья нейросеть переводит речь в текст, нормализует его, расставляет знаки препинания. 2
- Четвёртая разбивает текст на спикеров, если их несколько — присваивает им конкретные голоса. 2
- Пятая переводит текст с иностранного языка на русский и также приводит его в читабельный вид — со знаками препинания и смысловыми отрезками. 2
- Шестая нейросеть занимается синтезом речи и воспроизведением её на видео. 2 Браузер синхронизирует оригинал и перевод. 2