Синтез речи на основе WaveNet работает следующим образом: nplus1.ru
- Из заданной звуковой речи извлекают акустические характеристики. www.baeldung.com Например, спектрограмму Mel (визуальное представление частотного спектра аудиосигнала с течением времени). www.baeldung.com
- Эти характеристики передают в виде длинной чётко определённой магистрали свёртки. www.baeldung.com Они проходят через блоки свёртки в сети, и в процессе модель изучает правила эволюции формы звукового сигнала. www.baeldung.com
- После этого обученную модель используют для создания новых форм сигнала, похожих на речь. www.baeldung.com
WaveNet генерирует аудиосигнал по одному сэмплу за раз, что делает процесс генерации медленным, но обеспечивает высокое качество звука. sky.pro Модель также использует механизм условного кодирования, что позволяет ей генерировать речь с различными характеристиками, такими как пол, возраст и акцент говорящего. sky.pro