Некоторые нейросетевые технологии для создания новых голосов:
- Tacotron. 3 Архитектура, разработанная компанией Google, которая преобразует текст в спектрограмму, а затем использует алгоритм WaveNet для синтеза аудиосигнала. 3
- WaveNet. 3 Глубокая нейросеть, разработанная компанией DeepMind, которая генерирует аудиосигнал на основе последовательности акустических признаков. 3
- FastSpeech. 3 Модель, разработанная для ускорения процесса генерации речи. 3 Она использует предварительно обученные трансформеры для предсказания акустических признаков и синтеза аудиосигнала. 3
Также для создания новых голосов можно использовать, например, следующие сервисы:
- NaturalReaders. 4 Онлайн-инструмент, который предлагает клонирование голоса и преобразование текста в речь. 4 С его помощью можно создать уникальный голосовой клон, который будет звучать как собственный голос или голос выбранного человека. 4
- ElevenLabs. 24 Платформа специализируется на транскрибировании текста в речь. 4 Алгоритмы ElevenLabs анализируют текст и создают реалистичную речь с правильной интонацией, ударениями и паузами. 4
- Resemble AI. 5 Платформа объединяет технологии создания и защиты аудиоконтента в одну систему. 5 Для анализа и воспроизведения уникальных характеристик голоса (тембра, интонации и манеры речи) система использует искусственный интеллект. 5