Технология распознавания голоса в программах для выделения вокала основана на использовании искусственного интеллекта и нейросетей, которые обучены на больших массивах музыкальных данных. 1
Процесс работы можно описать так: музыкальная композиция рассматривается как сложный пазл, где каждый кусочек — определённый звук или инструмент. 1 Нейросеть анализирует этот пазл, определяя, какие кусочки относятся к вокалу, а какие — к инструментальной части. 1
Некоторые этапы работы технологии:
Для разделения аудио чаще всего используются свёрточные нейронные сети (CNN). 1 Они способны выделить характерные особенности вокала и инструментов, такие как тембр, гармоники и ритмические паттерны. 1