Возможно, имелась в виду технология распознавания речи, которая используется в интерактивных голосовых системах (IVR) для управления колл-центрами. 5
Процесс преобразования голоса в текст можно разделить на три этапа: 3
- Анализ сигнала. 34 Система получает голосовой сигнал, записывает его и отправляет на сервер. 34 Там сигнал очищают от шумов и помех, затем делят запись на фонемы — фрагменты длиной до 25 миллисекунд. 34 Каждый фрагмент сервер пропускает через акустическую модель, которая определяет, какие именно звуки произнесены. 34
- Расшифровка аудио. 3 Речевые фрагменты записи сравнивают с эталонными произношениями слогов и слов из акустической модели. 3 Система использует машинное обучение, чтобы подобрать фонетические варианты произнесённых слов и определить их контекст. 3
- Преобразование речи в текст. 3 С помощью языковой модели алгоритм определяет порядок слов и подбирает нераспознанные слова по контексту. 3 Полученная информация поступает в декодер, который объединяет данные от акустической и языковой моделей и преобразует их в текст. 3
Система распознавания речи может работать автономно, а может обучаться особенностям произношения конкретного пользователя. 5 Каждая новая обработанная голосовая информация влияет на качество обработки следующей, уменьшая количество погрешностей. 5