Для создания уникальных голосов голосовых помощников производители используют различные технологии синтеза речи. 5 Некоторые из них:
- Конкатенативный синтез. 5 Основан на использовании записанных фрагментов человеческой речи. 5 Эти фрагменты, называемые юнитами, объединяются для создания слов и предложений. 5
- Формантный синтез. 5 Использует математические модели для создания звуков. 5 В основе этой технологии лежат форманты — резонансные частоты, характерные для человеческого голоса. 5 Форманты определяют основные характеристики звука, такие как высота, тембр и громкость, что позволяет создавать разнообразные голосовые эффекты. 5
- Синтез на основе нейронных сетей. 5 Эти модели обучаются на больших объёмах данных и способны генерировать высококачественные и естественные голоса. 5 Нейронные сети позволяют синтезировать речь с интонацией, эмоциональной окраской и даже акцентами. 5
Например, компания Sesame выпустила модель искусственного интеллекта CSM-1B, которая стала основой для голосового помощника Maya. 1 Это мощный алгоритм, способный воспроизводить разные голоса и обрабатывать текстовые и аудиоданные. 1
Также OpenAI представила модели на базе GPT-4o, которые преобразуют текст в аудио с помощью одного из предложенных ИИ-голосов. 3 Для этих моделей можно задать тон, эмоции и характер, описав их текстом. 3