Синхронный перевод видео в реальном времени сложнее, чем перевод готовых роликов, по нескольким причинам:
- Отсутствие запаса времени на анализ аудиодорожки. 1 При переводе обычных роликов нейросети получают аудиодорожку сразу целиком. 1 У них есть время её проанализировать, разбить речь на предложения и синтезировать озвучку на другом языке. 1 Во время работы с прямыми трансляциями такого запаса времени нет — технология работает почти как синхронный переводчик. 1
- Противоречивые требования. 3 С одной стороны, нужно передать модели как можно больше текста за раз, чтобы нейросеть поняла контекст фразы. 3 С другой стороны, необходимо свести задержку к минимуму, иначе «прямой эфир» перестанет быть таковым. 3
- Разная длина фраз в разных языках. 14 Например, в русском языке фразы обычно длиннее, чем в английском. 1 Чтобы озвучка попала в слова, нейросеть, которая отвечает за синтез речи, ускоряет или замедляет речь и делает паузы. 1