Как работает система распознавания речи в Whisper?

Нейро

На основе 5 источников

en.wikipedia.org

Whisper (speech recognition system) - Wikipedia

dzen.ru

Установка Whisper на ПК. Нейросеть транскрибирует видео и аудио в текст. | Вячеславный интернет | Дзен

infostart.ru

OpenAI опубликовала код системы распознавания речи Whisper

aipure.ai

Whisper AI Введение: О чем Whisper AI

bothub.chat

Whisper: характеристики, преимущества и ограничения модели :: BotHub

Система распознавания речи Whisper от OpenAI работает на основе трансформерной архитектуры, в которую входят кодировщик и декодировщик. 2 4
Процесс начинается с того, что входной аудиосигнал разбивается на фрагменты по 30 секунд. 4 5 Затем эти фрагменты преобразуются в log-Mel-спектрограмму и подаются в кодировщик. 5
Кодировщик преобразует аудиосигнал в «векторы» — математические представления звука. 2 Он анализирует спектрограммы, чтобы выделить речь из шума. 2
Декодировщик превращает векторы в текст. 2 Он использует контекстные подсказки: например, если в предложении звучит «яблоко», то следующее слово, скорее всего, «съел», а не «космос». 2
В программе используются специальные токены, которые позволяют в рамках одной модели решать различные задачи: определять язык, учитывать хронологию звучания фраз, проводить транскрипцию речи на других языках и переводить её на английский. 3
Для обучения Whisper разработчики применили архив из 680 тысяч часов речевых данных, собранных из YouTube, подкастов, телефонных разговоров и радиопередач. 2 4

Найти в Поиске

Ответ сформирован YandexGPT на основе текстов выбранных сайтов. В нём могут быть неточности.

Примеры полезных ответов Нейро на вопросы из разных сфер. Вопросы сгенерированы нейросетью YandexGPT для актуальных тем, которые определяются на базе обобщённых запросов к Нейро.

Пожаловаться на контент

Пользовательское соглашение

Связаться с нами

Задать новый вопрос

Что такое Поиск с Нейро?