Технология распознавания речи сложнее, чем традиционное вводное письмо, по нескольким причинам:
- Разговорная речь отличается от письменной. 5 Она может быть неаккуратной и даже нечитабельной, так как изобилует словами-паразитами, междометиями и другими элементами. 5
- Для каждого языка нужна отдельная нейросеть. 1 Если нейросеть обучалась на одном языке, она не сможет распознать речь на другом, так как у неё в основе будет лежать другой алфавит и контекст. 2
- Качество распознавания зависит от количества данных для обучения нейросети. 2 Чем больше записей голоса с разными интонациями, эмоциями, дикторами и смысловым наполнением обработает искусственный интеллект, тем качественнее будет распознавание голоса в текст. 2
- Технология синтеза речи сложнее, чем распознавание. 14 От робота требуется не только распознавание звуков, но и точная имитация человеческой речи. 4 Мало просто прочитать текст: нужно расставить ударения, произнести каждое слово с нужной интонацией, выдержать паузы, обработать знаки препинания, различать омонимы и паронимы. 4