Система распознавания речи Whisper от OpenAI работает на основе трансформерной архитектуры, в которую входят кодировщик и декодировщик. 24
Процесс начинается с того, что входной аудиосигнал разбивается на фрагменты по 30 секунд. 45 Затем эти фрагменты преобразуются в log-Mel-спектрограмму и подаются в кодировщик. 5
Кодировщик преобразует аудиосигнал в «векторы» — математические представления звука. 2 Он анализирует спектрограммы, чтобы выделить речь из шума. 2
Декодировщик превращает векторы в текст. 2 Он использует контекстные подсказки: например, если в предложении звучит «яблоко», то следующее слово, скорее всего, «съел», а не «космос». 2
В программе используются специальные токены, которые позволяют в рамках одной модели решать различные задачи: определять язык, учитывать хронологию звучания фраз, проводить транскрипцию речи на других языках и переводить её на английский. 3
Для обучения Whisper разработчики применили архив из 680 тысяч часов речевых данных, собранных из YouTube, подкастов, телефонных разговоров и радиопередач. 24