Система распознавания голоса в онлайн-поддержке Яндекса работает на основе искусственного интеллекта и машинного обучения. 3
Процесс происходит так: 1
- Пользователь произносит голосовой запрос, например в Яндекс Навигаторе. 1 Смартфон записывает его и отправляет на сервер Яндекса. 1
- На сервере запись разделяется на много маленьких фрагментов (фреймов) длиной 25 миллисекунд, внахлёст, с шагом 10 миллисекунд. 1 То есть из одной секунды речи получается сто фреймов. 1
- Каждый из них пропускают через акустическую модель — функцию, которая определяет, какие звуки произнесены. 1
- На основе этих данных система, натренированная методами машинного обучения, определяет варианты слов, которые отображаются в результатах поиска. 1
Некоторые особенности системы:
- Восстановление слов по смыслу. 1 Если пользователь находится в шумном месте, говорит не очень чётко или использует неоднозначные слова, система достроит запрос исходя из контекста и статистики. 1
- Работа с вероятностями. 1 Каждый фрагмент голосового запроса (фрейм) сопоставляется не с одной фонемой, а с несколькими, подходящими с разной степенью вероятности. 1
- Устойчивость к шуму. 1 Программа хорошо распознаёт речь с акцентом, качество распознавания практически не зависит от пола и возраста говорящего. 1