Функция распознавания текста в музыкальных приложениях работает на основе автоматического распознавания речи. asmp-eurasipjournals.springeropen.com
Некоторые особенности работы таких функций:
- Предварительная обработка аудиодорожки. habr.com Она нужна, чтобы оптимально применить готовую модель распознавания речи к музыкальному аудио. habr.com Для этого аудиотрек разделяют на отдельные элементы: вокал, бас, барабаны и другие. habr.com
- Использование специальных алгоритмов. habr.com Они адаптированы под специфические особенности музыкального аудио, например, наличие шума на фоне пения и между фразами, возможную невнятность произношения слов. habr.com
- Применение моделей. habr.com Для обработки песен используется ансамбль моделей, что позволяет параллельно и эффективно обрабатывать большое количество аудиоданных. habr.com
- Постобработка. habr.com Даже если отдельные слова распознаны неправильно, общий смысл текста должен оставаться понятным. habr.com
Некоторые музыкальные приложения, которые используют функцию распознавания текста: Shazam, SoundHound, Musixmatch, Genius dzen.ru lifehacker.ru blog.rt.ru .