Технология распознавания голоса в современных мессенджерах работает в три этапа: 1
- Анализ сигнала. 1 Система записывает сигнал и отправляет его на сервер. 1 Там он очищается от лишних шумов, помех и всего того, что помешает распознаванию речи. 1 Уже «чистый» сигнал разбивается на фонемы — маленькие фрагменты длительностью до 25 мс. 1 Сервер «прогоняет» каждую фонему через акустическую модель и определяет, какие звуки произнёс пользователь. 1 Чем больше циклов обучения прошла система, тем точнее будет результат. 1
- Расшифровка полученного аудио. 1 Система уже хранит в себе эталонные варианты различных слов, слогов и звуков. 1 С помощью машинного обучения подбираются наиболее подходящие варианты слов, которые произнёс пользователь, а также определяется контекст. 1
- Преобразование в текст. 1 Языковая модель помогает определить порядок слов и по контексту подставить нераспознанные слова. 1 В декодере информация от двух моделей — акустической и языковой — объединяется и превращается в текст. 1
Например, в Telegram для распознавания голосовых сообщений используется бот SaluteSpeech, который преобразует аудио в текст на русском и английском языке. 4