Нейросеть Whisper от OpenAI считается одной из самых точных систем распознавания речи по нескольким причинам:
- Обширный обучающий набор данных. aipure.ai Для обучения Whisper использовали 680 000 часов размеченных аудиоданных с YouTube, подкастов, телефонных разговоров и радиопередач. dzen.ru Это в 100 раз больше, чем объём данных для предыдущих моделей. dzen.ru
- Устойчивость к различным факторам. bothub.chat Обучение на таком большом и разнообразном наборе данных повысило устойчивость модели к акцентам, фоновому шуму и специальной терминологии. bothub.chat
- Многофункциональные возможности. aipure.ai Whisper позволяет выполнять не только распознавание речи, но и такие задачи, как перевод речи и идентификация языка. aipure.ai
- Работа с сложными задачами. dzen.ru Модель справляется с перекрывающейся речью, отфильтровывает фоновые треки, фокусируясь на словах, распознаёт сленг и диалекты. dzen.ru
По данным Open ASR Leaderboard, средняя частота ошибок Whisper — 8,06%, то есть по умолчанию точность распознавания — 92%. www.gladia.io