Современные технологии конвертации голоса работают на основе анализа текстовой информации и перевода её в голосовые единицы. 1 Например, в платформе SaluteSpeech пользователи загружают текст онлайн, выбирают понравившегося диктора из обширной библиотеки и нажимают кнопку «Синтезировать». 1
Обученная нейросеть анализирует текстовую информацию и переводит её в голосовые единицы. 1 Затем алгоритм объединяет их в единую звуковую дорожку, которая нормализуется под привычное восприятие — корректируются ударение, интонация, фонетическая тональность, произношение сложных звуков. 1
Также для конвертации голоса одного человека в голос другого с сохранением интонации и эмоциональной окраски источника на вход модели подаётся исходный аудиосигнал и образец голоса целевого диктора. 2