Для создания оригинальных голосов для голосовых помощников используются различные методы. 2
Например, для проекта Q звуковые инженеры записали голоса 24 человек с разной гендерной самоидентификацией. 1 Сначала они хотели наложить эти записи друг на друга и получить нечто среднее, но такой вариант оказался слишком сложным. 1 В итоге исследователи нашли голос, соответствующий частоте, считающейся гендерно-нейтральной (от 145 Гц до 175 Гц). 1 Затем они доработали его и создали четыре тестовых образца. 1 Образцы отличались друг от друга по восприятию. 1 Например, жёсткое произношение звука «с» считается характерным для женских голосов, а чёткое разделение гласных воспринимается как элемент мужского голоса. 1 Затем исследователи провели опрос среди 4500 человек, в ходе которого они должны были охарактеризовать пол каждого из четырёх образцов голоса. 1 В итоге получился Q — голос, который 50% опрошенных назвали гендерно-нейтральным, 26% посчитали мужским и 24% — женским. 1
Для создания голосов виртуальных ассистентов «Салют» работает целая команда. 2 Войс-коучи записывают голоса реальных дикторов, разметчики готовят датасеты, дата-сайентисты обучают нейросети и проводят эксперименты, программисты пишут эффективный код, а аналитики находят способы измерять качество. 2
Также для создания голосов можно использовать платформу речевых сервисов, например SaluteSpeech. 5 Пользователи загружают текст онлайн, выбирают понравившегося диктора из обширной библиотеки и нажимают кнопку «Синтезировать». 5 Обученная нейросеть анализирует текстовую информацию и переводит её в голосовые единицы. 5 Затем алгоритм объединяет их в единую звуковую дорожку, которая нормализуется под привычное восприятие — корректируются ударение, интонация, фонетическая тональность, произношение сложных звуков. 5