Вопросы к Поиску с Алисой

Примеры ответов Поиска с Алисой
Главная / Наука и образование / Как работает архитектура модели Whisper для распознавания речи?
Вопрос для Поиска с Алисой
17 октября

Как работает архитектура модели Whisper для распознавания речи?

Алиса
На основе источников, возможны неточности

Архитектура модели Whisper для распознавания речи основана на архитектуре энкодера-декодера. en.m.wikipedia.org openai.com

Процесс работы включает два этапа: www.gladia.io

  1. Обработка входного аудио. www.gladia.io Аудиоразъём делится на 30-секундные фрагменты, преобразуется в лог-Мел-спектрограмму и передаётся в энкодер для генерации математического представления звука. www.gladia.io openai.com
  2. Декодирование с использованием языковой модели. www.gladia.io Аудио обрабатывается через слои модели, чтобы предсказать наиболее вероятную последовательность текстовых токенов — базовых единиц текста, используемых для обработки. www.gladia.io

Некоторые этапы работы энкодера: learnopencv.com

  • Обработка ввода. learnopencv.com Аудио преобразуется в лог-Мел-спектрограмму, которая представляет собой частотно-временное представление, захватывающее перцептивные и акустические характеристики звука. learnopencv.com
  • Извлечение признаков. learnopencv.com Спектрограмма проходит через небольшую нейронную сеть, состоящую из двух сверточных слоёв с активацией GELU для улучшения извлечения локальных признаков. learnopencv.com
  • Позиционная кодировка. learnopencv.com После сверточного слоя добавляются синусоидальные позиционные кодировки, чтобы предоставить модели информацию о порядке последовательности входных признаков. learnopencv.com
  • Блоки Transformer. learnopencv.com Обработанные признаки подаются в несколько блоков энкодера Transformer. learnopencv.com Здесь самовнимание помогает модели понимать контекст внутри звуковой последовательности, позволяя ей взвешивать важность различных сегментов входного аудио. learnopencv.com

Декодер использует изученные позиционные кодировки, которые отличаются от синусоидальной версии энкодера, что может помочь ему адаптироваться к конкретным требованиям структуры выходной последовательности. learnopencv.com

Примеры полезных ответов Поиска с Алисой на вопросы из разных сфер. Вопросы сгенерированы нейросетью YandexGPT для актуальных тем, которые определяются на базе обобщённых запросов к Поиску с Алисой.
Задать новый вопрос
Задайте вопрос...
…и сразу получите ответ в Поиске с Алисой
Войдите, чтобы поставить лайк
С Яндекс ID это займёт пару секунд
Войти
Tue Aug 26 2025 09:00:20 GMT+0300 (Moscow Standard Time)