Для создания реалистичных голосов в виртуальных ассистентах применяются различные технологии машинного обучения, среди них:
- Нейронные вокодеры. 1 Генерируют звук, максимально приближённый к реальному голосу. 1 Это достигается за счёт обработки звука на уровне частотного спектра. 1
- Генеративно-состязательные сети (GAN). 1 Обучаются по модели «состязания»: одна часть нейросети отвечает за синтез речи, а другая — за оценку её качества, сравнивая результаты с реальными образцами. 1 Такой подход позволяет быстро улучшать качество синтеза, так как система постоянно совершенствуется. 1
- Спектральный анализ. 1 Позволяет анализировать распределение энергии звука по частотам, что даёт возможность детально настраивать все аспекты голоса — от плавности переходов между звуками до эмоциональной интонации. 1
- Предикция просодии. 2 Система учится правильно ставить ударения и паузы. 2
- Эмоциональное окрашивание. 2 Нейросеть анализирует контекст, чтобы добавить радость, грусть или удивление. 2
- Артикуляционное моделирование. 2 Воспроизводит особенности работы речевого аппарата. 2
Некоторые алгоритмы, которые используются для создания синтезированной речи: Tacotron, WaveNet (разработан компанией Google DeepMind). 12