Несколько причин, почему автоматически точно расшифровывать человеческую речь невозможно:
- Недостаток данных для обучения. 12 Для обучения моделей необходимы не стерильные студийные аудиозаписи с простым текстом, а речь в реалистичных акустических условиях, со сложными темами и терминами. 2
- Сложность формализации правил функциональной грамматики. 3 Эти правила описывают, какие слова могут сочетаться друг с другом и каким образом. 3 Их не удаётся описать так, чтобы было понятно компьютеру. 3
- Многозначность слов. 3 У многих слов в языке — сотни или тысячи значений. 3 Выбор конкретного значения зависит от контекста, то есть от окружающих слов. 3 В устной речи он ещё зависит от выражения лица или от интонации. 3
- Фоновый шум. 4 Автоматические системы распознавания речи допускают гораздо больше ошибок с увеличением шума. 4
- Акценты и диалекты. 4 Существует множество языков с большим количеством диалектов и акцентов, невозможно собрать достаточно данных для всех случаев. 4
- Работа с терминами. 2 Если говорящий употребляет узкопрофильные слова из конкретной сферы, которых не было в обучении, модель зачастую не может их распознать. 2