Примеры ответов Нейро на вопросы из разных сфер
Главная / Технологии / Как работает система распознавания речи в Whisper?
Вопрос для Нейро
1 мая

Как работает система распознавания речи в Whisper?

Нейро
На основе 5 источников

Система распознавания речи Whisper от OpenAI работает на основе трансформерной архитектуры, в которую входят кодировщик и декодировщик. 24

Процесс начинается с того, что входной аудиосигнал разбивается на фрагменты по 30 секунд. 45 Затем эти фрагменты преобразуются в log-Mel-спектрограмму и подаются в кодировщик. 5

Кодировщик преобразует аудиосигнал в «векторы» — математические представления звука. 2 Он анализирует спектрограммы, чтобы выделить речь из шума. 2

Декодировщик превращает векторы в текст. 2 Он использует контекстные подсказки: например, если в предложении звучит «яблоко», то следующее слово, скорее всего, «съел», а не «космос». 2

В программе используются специальные токены, которые позволяют в рамках одной модели решать различные задачи: определять язык, учитывать хронологию звучания фраз, проводить транскрипцию речи на других языках и переводить её на английский. 3

Для обучения Whisper разработчики применили архив из 680 тысяч часов речевых данных, собранных из YouTube, подкастов, телефонных разговоров и радиопередач. 24

0
Ответ сформирован YandexGPT на основе текстов выбранных сайтов. В нём могут быть неточности.
Примеры полезных ответов Нейро на вопросы из разных сфер. Вопросы сгенерированы нейросетью YandexGPT для актуальных тем, которые определяются на базе обобщённых запросов к Нейро.
Задать новый вопрос
Задайте вопрос...
…и сразу получите ответ в Поиске с Нейро
Войдите, чтобы поставить лайк
С Яндекс ID это займёт пару секунд
Войти
Tue Jun 17 2025 10:03:28 GMT+0300 (Moscow Standard Time)