Система распознавания голоса в «Тинькофф банке» основана на технологии VoiceKit. dzen.ru www.tbank.ru Она позволяет переводить аудио в текст с качеством до 96%. www.tbank.ru
Процесс расшифровки происходит в несколько этапов: dzen.ru
- Нейросеть получает на входе звук в каком-либо виде, например, спектрограмму или wave-форму. dzen.ru На выходе нейросеть выдаёт вероятности произнесения отдельных букв в каждый момент времени. dzen.ru
- Подключается языковая модель. dzen.ru Она учитывает тематику, если участвовала в обучении, или использует общие данные. dzen.ru Модель определяет, с какой вероятностью можно встретить в данном языке определённую последовательность звуков и сложенных из них слов. dzen.ru
- Нейросеть с языковой моделью соединяет алгоритм декодер, который уже выдаёт предложения. dzen.ru
В основе разработки «Тинькофф банка» лежит метод, основанный на извлечении i-векторов (слепков голоса) и их сравнении с помощью вероятностного линейного дискриминантного анализа PLDA. incrussia.ru