Для удаления вокала из музыкальных треков используются свёрточные нейронные сети (CNN). 1 Они эффективны в анализе данных с пространственной структурой, такой как аудиосигнал. 1 CNN способны выделить характерные особенности вокала и инструментов, такие как тембр, гармоники и ритмические паттерны. 1
Обучение нейросети происходит на огромном наборе данных, содержащем тысячи музыкальных композиций. 1 Каждая композиция имеет метки, указывающие, какая часть звука соответствует вокалу, а какая — инструментальной партии. 1 Нейросеть анализирует эти данные и находит закономерности, которые позволяют ей впоследствии точно определять границы между различными элементами музыкальной композиции. 1
Например, в онлайн-сервисе LALAL.AI для тренировки искусственного интеллекта используется база данных из 20 Тбайт студийных звукозаписей высокого качества. 2