WaveNet обеспечивает более естественную интонацию речи по сравнению с другими системами благодаря подходу к генерации звука на основе нейронных сетей. 15
Некоторые особенности этого подхода:
- Обучение на больших объёмах данных. 12 Нейронная сеть определяет основную структуру речи, например, какие тона следуют друг за другом, а какие более реалистичные. 1
- Генерация звука по семплам. 4 WaveNet синтезирует по одному голосовому сэмплу за раз, принимая во внимание свойства предыдущего сэмпла. 1 Это приводит к более натуральному звучанию речи. 4
- Возможность копировать интонации и особенности речи. 3 WaveNet способна имитировать интонации и особенности речи своих тренеров, например, причмокивание губами или перевод дыхания. 3
- Адаптация к различным акцентам, интонациям и языкам. 5 WaveNet может выбирать нужный голос для каждого высказывания, а также передавать на вход модели дополнительную информацию, например, про эмоции или акценты, чтобы сделать речь ещё более разнообразной и интересной. 4