За последние 20 лет технологии синтеза речи развивались, в частности, по следующим направлениям:
- Улучшение естественности и выразительности. 3 Новые модели стремятся сделать синтезируемую речь более естественной и выразительной, учитывая интонации, акценты и эмоциональную окраску. 3
- Мультиязычность и мультиспикерность. 3 Разрабатываются модели, способные синтезировать речь на различных языках и голосами разных спикеров. 3
- Персонализация. 3 Адаптация голосов под индивидуальные предпочтения пользователей, что позволяет создавать более персонализированные голосовые ассистенты. 3
- Оптимизация вычислительных ресурсов. 3 Снижаются требования к вычислительным мощностям, что позволяет использовать технологии синтеза речи на устройствах с ограниченными ресурсами. 3
Некоторые достижения в развитии технологий синтеза речи:
- WaveNet. 35 В 2016 году Google представил генеративную модель, которая использовала параметрический подход и смогла синтезировать речь, максимально приближённую к человеческой. 45
- Tacotron 2. 13 В 2017 году Google создала нейросетевые архитектуры, которые позволяли синтезировать речь на основе сгенерированных из текста спектрограмм. 1
- Большие акустические SSL-модели. 5 Способны бесконтрольно обучаться на любых наборах аудиоданных, стали универсальными инструментами для кодирования звуков, речи, музыки и прочих аудиосигналов. 5
- Современные модели. 5 Например, Bark, предлагают генерацию новых голосов, фоновой музыки и различных звуковых эффектов на основе интуитивных текстовых подсказок (промптов). 5