Синтез речи на основе WaveNet работает следующим образом: 2
- Из заданной звуковой речи извлекают акустические характеристики. 5 Например, спектрограмму Mel (визуальное представление частотного спектра аудиосигнала с течением времени). 5
- Эти характеристики передают в виде длинной чётко определённой магистрали свёртки. 5 Они проходят через блоки свёртки в сети, и в процессе модель изучает правила эволюции формы звукового сигнала. 5
- После этого обученную модель используют для создания новых форм сигнала, похожих на речь. 5
WaveNet генерирует аудиосигнал по одному сэмплу за раз, что делает процесс генерации медленным, но обеспечивает высокое качество звука. 1 Модель также использует механизм условного кодирования, что позволяет ей генерировать речь с различными характеристиками, такими как пол, возраст и акцент говорящего. 1