Архитектура модели Whisper для распознавания речи основана на архитектуре энкодера-декодера. en.m.wikipedia.org openai.com
Процесс работы включает два этапа: www.gladia.io
- Обработка входного аудио. www.gladia.io Аудиоразъём делится на 30-секундные фрагменты, преобразуется в лог-Мел-спектрограмму и передаётся в энкодер для генерации математического представления звука. www.gladia.io openai.com
- Декодирование с использованием языковой модели. www.gladia.io Аудио обрабатывается через слои модели, чтобы предсказать наиболее вероятную последовательность текстовых токенов — базовых единиц текста, используемых для обработки. www.gladia.io
Некоторые этапы работы энкодера: learnopencv.com
- Обработка ввода. learnopencv.com Аудио преобразуется в лог-Мел-спектрограмму, которая представляет собой частотно-временное представление, захватывающее перцептивные и акустические характеристики звука. learnopencv.com
- Извлечение признаков. learnopencv.com Спектрограмма проходит через небольшую нейронную сеть, состоящую из двух сверточных слоёв с активацией GELU для улучшения извлечения локальных признаков. learnopencv.com
- Позиционная кодировка. learnopencv.com После сверточного слоя добавляются синусоидальные позиционные кодировки, чтобы предоставить модели информацию о порядке последовательности входных признаков. learnopencv.com
- Блоки Transformer. learnopencv.com Обработанные признаки подаются в несколько блоков энкодера Transformer. learnopencv.com Здесь самовнимание помогает модели понимать контекст внутри звуковой последовательности, позволяя ей взвешивать важность различных сегментов входного аудио. learnopencv.com
Декодер использует изученные позиционные кодировки, которые отличаются от синусоидальной версии энкодера, что может помочь ему адаптироваться к конкретным требованиям структуры выходной последовательности. learnopencv.com