За последние годы технология голосового синтеза в музыкальных приложениях значительно изменилась, в частности благодаря развитию искусственного интеллекта (ИИ). habr.com dzen.ru
Некоторые направления, в которых происходит совершенствование технологии:
- Улучшение естественности и выразительности. na-journal.ru Новые модели учитывают интонации, акценты и эмоциональную окраску речи. na-journal.ru
- Мультиязычность и мультиспикерность. na-journal.ru Разрабатываются модели, способные синтезировать речь на различных языках и голосами разных спикеров. na-journal.ru
- Персонализация. na-journal.ru Голоса адаптируются под индивидуальные предпочтения пользователей, что позволяет создавать более персонализированные голосовые ассистенты. na-journal.ru
- Оптимизация вычислительных ресурсов. na-journal.ru Снижаются требования к вычислительным мощностям, что позволяет использовать технологии синтеза речи на устройствах с ограниченными ресурсами. na-journal.ru
Примеры современных технологий голосового синтеза:
- WaveNet и Tacotron 2 от Google. na-journal.ru WaveNet моделирует звуковые волны с высокой детализацией, что позволяет достигать уровня звучания, почти неотличимого от человеческой речи. na-journal.ru Tacotron 2 использует двухступенчатый процесс: сначала преобразование текста в спектрограмму, затем генерация аудиоволн. na-journal.ru
- Модели на основе Tacotron и WaveNet от SberDevices. na-journal.ru Эти модели позволяют достигать высокой естественности и выразительности, что делает синтезируемую речь практически неотличимой от человеческой. na-journal.ru