Система распознавания голоса в «Тинькофф банке» основана на технологии VoiceKit. 15 Она позволяет переводить аудио в текст с качеством до 96%. 5
Процесс расшифровки происходит в несколько этапов: 1
- Нейросеть получает на входе звук в каком-либо виде, например, спектрограмму или wave-форму. 1 На выходе нейросеть выдаёт вероятности произнесения отдельных букв в каждый момент времени. 1
- Подключается языковая модель. 1 Она учитывает тематику, если участвовала в обучении, или использует общие данные. 1 Модель определяет, с какой вероятностью можно встретить в данном языке определённую последовательность звуков и сложенных из них слов. 1
- Нейросеть с языковой моделью соединяет алгоритм декодер, который уже выдаёт предложения. 1
В основе разработки «Тинькофф банка» лежит метод, основанный на извлечении i-векторов (слепков голоса) и их сравнении с помощью вероятностного линейного дискриминантного анализа PLDA. 2