Несколько причин, по которым музыкальное распознавание речи остаётся сложной задачей:
- Нестационарность помехи. 1 Присутствие шума музыки на фоне речи диктора является одним из самых сложных случаев для систем автоматического распознавания речи. 1 Классические одноканальные методы и адаптивные многоканальные алгоритмы нацеливания не способны в полной мере подавить такой шум. 1
- Избыточность информации. 3 Спектр сигнала содержит большое количество данных, что является избыточным для поставленной задачи. 3
- Резкие изменения энергии. 3 Они ухудшают точность распознавания звуковых образов. 3
Для решения этой задачи применяются акустические модели, реализованные на искусственных нейронных сетях с применением методов глубокого обучения. 1