Технология распознавания голоса в виртуальных помощниках «Салют» работает на базе платформ обработки естественного языка SmartNLP и SaluteSpeech. 4
При распознавании речи пользователя за анализ отвечают нейросетевые NLU-модели от SberDevices, основанные на модифицированных многослойных архитектурах трансформеров. 4 Они понимают, что говорит человек со всеми особенностями его дикции и интонации, и переводят в печатный текст. 2
Синтез речи в «Салют» происходит с помощью рекуррентно-свёрточной архитектуры Tacotron/Tacotron-2 и отдельной нейросети. 4 Система нейросетевого синтеза речи управляет темпом, интонацией, ударениями, длиной пауз и эмоциональной окраской речи. 4