Система автоматической расшифровки разговоров работает на основе технологии распознавания речи, которая позволяет обрабатывать голос и переводить аудиоинформацию в текст. mws.ru
Процесс проходит в три этапа: mws.ru cloud.vk.com
- Анализ сигнала. mws.ru cloud.vk.com Система получает голосовой сигнал, записывает его и посылает на сервер. cloud.vk.com Там сигнал очищают от шумов и помех, затем делят запись на фонемы — фрагменты длиной до 25 миллисекунд. cloud.vk.com Каждый фрагмент сервер пропускает через акустическую модель, которая определяет, какие именно звуки произнесены. cloud.vk.com
- Расшифровка аудио. cloud.vk.com Речевые фрагменты записи сравнивают с эталонными произношениями слогов и слов из акустической модели. cloud.vk.com Система использует машинное обучение, чтобы подобрать фонетические варианты произнесённых слов и определить их контекст. cloud.vk.com
- Преобразование речи в текст. cloud.vk.com С помощью языковой модели алгоритм определяет порядок слов и подбирает нераспознанные слова по контексту. cloud.vk.com Полученная информация поступает в декодер, который объединяет данные от акустической и языковой моделей и преобразует их в текст. cloud.vk.com
В основе сервисов для автоматической расшифровки разговоров — модели искусственного интеллекта. kontur.ru Чтобы алгоритмы переводили речь в текст, ИИ тренируется на массивах данных, которые содержат разнообразные примеры речи, акцентов, интонаций, стилей общения спикеров разных полов и возрастов. kontur.ru