Генеративно-состязательные сети (GAN) в голосовых меняющих приложениях могут создавать следующие эффекты:
- Улучшение качества голоса. 1 Модель делает акцент на деталях на низких частотах, которые важны для разборчивости речи. 1
- Устойчивость к новым спикерам. 1 При этом GAN-подобные вокодеры отличаются быстрой скоростью работы и малым размером модели. 1
- Сохранение естественности преобразованной речи. 3 Например, метод SoftGAN улучшает качество преобразования голоса при сохранении естественности преобразованной речи. 3
Однако методы на основе GAN могут быть нестабильны, часто требуют тщательной настройки гиперпараметров и даже приводить к ухудшению качества преобразованного речевого сигнала. 3