Как работает архитектура модели Whisper для распознавания речи?

Алиса

На основе источников, возможны неточности

Как это работает?

Архитектура модели Whisper для распознавания речи основана на архитектуре энкодера-декодера. en.m.wikipedia.org openai.com

Процесс работы включает два этапа: www.gladia.io

Обработка входного аудио. www.gladia.io Аудиоразъём делится на 30-секундные фрагменты, преобразуется в лог-Мел-спектрограмму и передаётся в энкодер для генерации математического представления звука. www.gladia.io openai.com

Декодирование с использованием языковой модели. www.gladia.io Аудио обрабатывается через слои модели, чтобы предсказать наиболее вероятную последовательность текстовых токенов — базовых единиц текста, используемых для обработки. www.gladia.io

Некоторые этапы работы энкодера: learnopencv.com

Обработка ввода. learnopencv.com Аудио преобразуется в лог-Мел-спектрограмму, которая представляет собой частотно-временное представление, захватывающее перцептивные и акустические характеристики звука. learnopencv.com

Извлечение признаков. learnopencv.com Спектрограмма проходит через небольшую нейронную сеть, состоящую из двух сверточных слоёв с активацией GELU для улучшения извлечения локальных признаков. learnopencv.com

Позиционная кодировка. learnopencv.com После сверточного слоя добавляются синусоидальные позиционные кодировки, чтобы предоставить модели информацию о порядке последовательности входных признаков. learnopencv.com

Блоки Transformer. learnopencv.com Обработанные признаки подаются в несколько блоков энкодера Transformer. learnopencv.com Здесь самовнимание помогает модели понимать контекст внутри звуковой последовательности, позволяя ей взвешивать важность различных сегментов входного аудио. learnopencv.com

Декодер использует изученные позиционные кодировки, которые отличаются от синусоидальной версии энкодера, что может помочь ему адаптироваться к конкретным требованиям структуры выходной последовательности. learnopencv.com

Пользователь

Время добавления

Текст комментария

Ответить

Показать X ответов

Пользователь

Время добавления

Текст ответа

Ответить

Примеры полезных ответов Поиска с Алисой на вопросы из разных сфер. Вопросы сгенерированы нейросетью YandexGPT для актуальных тем, которые определяются на базе обобщённых запросов к Поиску с Алисой.

Пожаловаться на контент

Пользовательское соглашение

Связаться с нами

Задать новый вопрос

Как это работает?

Как работает архитектура модели Whisper для распознавания речи?

Пользователь

Время добавления

Текст комментария

Пользователь

Время добавления

Текст ответа

Комментарии