Возможно, имелся в виду автоперевод видео с помощью нейросетей, например, в Яндекс Браузере. 13 Процесс состоит из нескольких этапов: 3
- Распознавание речи. 34 Исходную аудиодорожку конвертируют в текст. 4
- Разделение текста на предложения. 4 Для каждого предложения определяют пол говорящего и его идентификатор. 4
- Машинный перевод речи. 4 Происходит с учётом контекста и пола говорящего. 4
- Синтез речи. 4 Нейронная сеть выполняет то, что у синхронных переводчиков называется речевой компрессией: сокращает паузы между словами и, если необходимо, немного ускоряет темп речи. 3
- Постобработка. 4 На этом этапе накладывают аудио с синтезированным переводом на оригинальное видео. 4
В озвучке видео участвуют несколько нейросетей: 1
- Первая определяет язык говорящего. 1 Если он говорит на поддерживаемом языке, то браузер предлагает перевести содержимое на русский. 1
- Вторая переводит речь в текст. 1 В полученной модели создают аудиодорожку, из которой нейросеть удаляет лишние звуки и слова-паразиты. 1
- Третья нормализует текст и расставляет знаки препинания. 1 Она получает набор переведённых слов, составляет из него грамотные предложения и занимается пунктуацией, сохранив изначальный смысл. 1
- Четвёртая определяет количество спикеров, их пол и применяемые местоимения. 1 Вычисляется тип голоса (мужской или женский) по частоте звучания. 1
- Пятая занимается переводом текста на русский язык. 1
- Шестая синтезирует речь и синхронизирует её с роликом. 1 Она делает паузы одновременно с говорящим человеком, а также соблюдает его темп речи, иногда ускоряясь или замедляясь. 1