Синхронный перевод видео в реальном времени сложнее, чем перевод готовых роликов, по нескольким причинам:
Отсутствие запаса времени на анализ аудиодорожки. journal.tinkoff.ru При переводе обычных роликов нейросети получают аудиодорожку сразу целиком. journal.tinkoff.ru У них есть время её проанализировать, разбить речь на предложения и синтезировать озвучку на другом языке. journal.tinkoff.ru Во время работы с прямыми трансляциями такого запаса времени нет — технология работает почти как синхронный переводчик. journal.tinkoff.ru
Противоречивые требования. habr.com С одной стороны, нужно передать модели как можно больше текста за раз, чтобы нейросеть поняла контекст фразы. habr.com С другой стороны, необходимо свести задержку к минимуму, иначе «прямой эфир» перестанет быть таковым. habr.com
Разная длина фраз в разных языках. journal.tinkoff.ru dzen.ru Например, в русском языке фразы обычно длиннее, чем в английском. journal.tinkoff.ru Чтобы озвучка попала в слова, нейросеть, которая отвечает за синтез речи, ускоряет или замедляет речь и делает паузы. journal.tinkoff.ru
Примеры полезных ответов Поиска с Алисой на вопросы из разных сфер. Вопросы сгенерированы нейросетью YandexGPT для актуальных тем, которые определяются на базе обобщённых запросов к Поиску с Алисой.