Технология Whisper для распознавания голоса в ChatGPT работает по принципу кодер-декодер. 2
Входное аудио разбивается на 30-секундные фрагменты, которые преобразуются в кепструм малой частоты и подаются в кодировщик. 12
Декодер обучен предсказывать соответствующий текст, перемежающийся специальными токенами. 1 Они указывают модели выполнять такие задачи, как идентификация языка, временные метки на уровне фраз, многоязычная транскрипция речи и перевод речи на английский язык. 1
Whisper различает многие распространённые языки, включая английский, испанский, французский, немецкий, итальянский, португальский, голландский, русский, шведский, китайский, японский, корейский, арабский, украинский и другие. 3
Некоторые особенности технологии: