Трансферное обучение для классификации аудио работает следующим образом: базовая модель сначала предварительно обучается на задаче с большим количеством обучающих данных, а затем дорабатывается на различных задачах, где обучающих данных меньше или даже мало. 1
Например, для распознавания речи, как в случае с моделью Wav2Vec2, это происходит так: один случайно инициализированный линейный слой добавляется поверх предварительно обученной контрольной точки и обучается классифицировать необработанный входной аудиосигнал на последовательность букв. 1 Для этого он извлекает аудиопредставления из необработанного звука (с помощью слоёв CNN), обрабатывает последовательность звуковых представлений с помощью стека слоёв transformer и классифицирует обработанные аудиопредставления в последовательность выходных букв. 1
Таким образом, трансферное обучение позволяет сократить объём данных, необходимых для обучения новых моделей, и повысить их точность и эффективность. 3