Технология Whisper от OpenAI работает на основе автоматического распознавания речи (ASR). speechify.com sendpulse.com Она предназначена для преобразования разговорной речи в письменный текст. sendpulse.com
Процесс работы: bothub.chat
- Входное аудио разбивается на 30-секундные фрагменты. bothub.chat
- Фрагменты преобразуются в log-Mel спектрограмму и подаются в кодировщик. bothub.chat
- Декодер обучен предсказывать соответствующий текст, перемежающийся специальными токенами. bothub.chat Они указывают модели выполнять такие задачи, как идентификация языка, временные метки на уровне фраз, многоязычная транскрипция речи и перевод речи на английский язык. bothub.chat
Некоторые особенности технологии:
- Устойчивость к акцентам, фоновому шуму и специальной терминологии. bothub.chat Для обучения модели использовали 680 тысяч часов речевых данных на разных языках и по разным темам. gen-api.ru
- Поддержка различных языков. speechify.com Whisper различает английский, испанский, французский, немецкий, итальянский, португальский, голландский, русский, шведский, китайский, японский, корейский, арабский, украинский и другие. sendpulse.com
- Работа в шумных условиях. speechify.com Модель использует технику мел-спектрограммы, которая является визуальным представлением звука, используемым для анализа речи. speechify.com