Технология Whisper от OpenAI работает на основе автоматического распознавания речи (ASR). 12 Она предназначена для преобразования разговорной речи в письменный текст. 2
Процесс работы: 3
- Входное аудио разбивается на 30-секундные фрагменты. 3
- Фрагменты преобразуются в log-Mel спектрограмму и подаются в кодировщик. 3
- Декодер обучен предсказывать соответствующий текст, перемежающийся специальными токенами. 3 Они указывают модели выполнять такие задачи, как идентификация языка, временные метки на уровне фраз, многоязычная транскрипция речи и перевод речи на английский язык. 3
Некоторые особенности технологии:
- Устойчивость к акцентам, фоновому шуму и специальной терминологии. 3 Для обучения модели использовали 680 тысяч часов речевых данных на разных языках и по разным темам. 5
- Поддержка различных языков. 1 Whisper различает английский, испанский, французский, немецкий, итальянский, португальский, голландский, русский, шведский, китайский, японский, корейский, арабский, украинский и другие. 2
- Работа в шумных условиях. 1 Модель использует технику мел-спектрограммы, которая является визуальным представлением звука, используемым для анализа речи. 1