Технология преобразования голоса в текст (Speech-to-Text) основана на нейросети, которая обрабатывает речь и возвращает распознанный текст. 45
Процесс можно разделить на несколько этапов: 1
- Анализ сигнала. 12 Система получает голосовой сигнал, записывает и посылает на сервер. 2 Сервер очищает сигнал от шумов и помех, затем делит запись на фонемы — фрагменты длиной до 25 миллисекунд. 2 Каждый фрагмент сервер пропускает через акустическую модель, которая определяет, какие именно звуки произнесены. 2
- Расшифровка аудио. 2 Речевые фрагменты записи сравнивают с эталонными произношениями слогов и слов из акустической модели. 2 Система использует машинное обучение, чтобы подобрать фонетические варианты произнесённых слов и определить их контекст. 2
- Преобразование речи в текст. 2 С помощью языковой модели алгоритм определяет порядок слов и подбирает нераспознанные слова по контексту. 2 Полученная информация поступает в декодер, который объединяет данные от акустической и языковой моделей и преобразует их в текст. 2
Чтобы нейросеть могла отождествлять звуки и буквы, её обучают на первичном датасете, состоящем из голосовых аудиозаписей в сочетании с размеченным текстом. 5
Чем больше образцов человеческой речи (от людей разного пола, возраста, с разными особенностями произношения и интонациями) собрано в датасете, тем точнее нейросеть может распознавать сказанное. 5