Возможно, имелась в виду технология распознавания речи, которая используется в интерактивных голосовых системах (IVR) для управления колл-центрами. www.mango-office.ru
Процесс преобразования голоса в текст можно разделить на три этапа: cloud.vk.com
- Анализ сигнала. cloud.vk.com mws.ru Система получает голосовой сигнал, записывает его и отправляет на сервер. cloud.vk.com mws.ru Там сигнал очищают от шумов и помех, затем делят запись на фонемы — фрагменты длиной до 25 миллисекунд. cloud.vk.com mws.ru Каждый фрагмент сервер пропускает через акустическую модель, которая определяет, какие именно звуки произнесены. cloud.vk.com mws.ru
- Расшифровка аудио. cloud.vk.com Речевые фрагменты записи сравнивают с эталонными произношениями слогов и слов из акустической модели. cloud.vk.com Система использует машинное обучение, чтобы подобрать фонетические варианты произнесённых слов и определить их контекст. cloud.vk.com
- Преобразование речи в текст. cloud.vk.com С помощью языковой модели алгоритм определяет порядок слов и подбирает нераспознанные слова по контексту. cloud.vk.com Полученная информация поступает в декодер, который объединяет данные от акустической и языковой моделей и преобразует их в текст. cloud.vk.com
Система распознавания речи может работать автономно, а может обучаться особенностям произношения конкретного пользователя. www.mango-office.ru Каждая новая обработанная голосовая информация влияет на качество обработки следующей, уменьшая количество погрешностей. www.mango-office.ru