Вопросы к Поиску с Алисой
Технология Whisper для распознавания голоса в ChatGPT работает по принципу кодер-декодер. dzen.ru
Входное аудио разбивается на 30-секундные фрагменты, которые преобразуются в кепструм малой частоты и подаются в кодировщик. bothub.chat dzen.ru
Декодер обучен предсказывать соответствующий текст, перемежающийся специальными токенами. bothub.chat Они указывают модели выполнять такие задачи, как идентификация языка, временные метки на уровне фраз, многоязычная транскрипция речи и перевод речи на английский язык. bothub.chat
Whisper различает многие распространённые языки, включая английский, испанский, французский, немецкий, итальянский, португальский, голландский, русский, шведский, китайский, японский, корейский, арабский, украинский и другие. sendpulse.com
Некоторые особенности технологии: