Технология распознавания голоса в современных смартфонах работает по следующему алгоритму: 2
- Запись голосового запроса. 1 Смартфон записывает его и отправляет на серверы, где определяется уровень помех и происходит шумоотчистка и отделение полезного сигнала. 1
- Разделение записи на фрагменты (фреймы). 1 Например, длиной 25 миллисекунд с шагом 10 миллисекунд, то есть внахлёст. 1 Таким образом из одной секунды речи получается сто фреймов. 1
- Пропуск каждого фрейма через акустическую модель. 1 Система с машинным обучением определяет варианты произнесённых слов и контекст. 1 Для каждого звука изначально строится сложная статистическая модель, которая описывает произнесение этого звука в речи. 1 Система распознавания сопоставляет входящий речевой сигнал с фонемами, а уже из них собирает слова. 1
- Вступление в процесс языковой модели. 1 При её помощи система определяет вероятный порядок слов и при необходимости восстанавливает нераспознанные слова по смыслу, исходя из контекста и имеющейся статистики. 1
- Получение информации в основной блок системы распознавания — декодер. 1 Этот программный компонент совмещает данные от акустических и языковых моделей и на основании их объединения выдаёт конечный результат в виде наиболее вероятной последовательности слов. 1
Благодаря машинному обучению системы устойчивы к шуму и умеют распознавать речь с акцентом. 1 Точность современных систем распознавания речи превышает 90%. 1