Автоматическое распознавание музыкальных треков в видео отличается от ручной разметки тем, что первый процесс выполняется с помощью специальных алгоритмов, а второй — человеком.
Автоматическое распознавание включает в себя идентификацию аудиофрагментов: нейросеть определяет, где звучит музыка. 2 Затем этот участок вырезается и передаётся другой модели, которая строит его спектрограмму (анализирует тоны и обертоны) и сопоставляет её с известными треками. 2
Ручная разметка требуется, например, в случаях, когда алгоритм не уверен в том, правильно ли он распознал трек. 4 В таком случае программа присылает человеку запрос на проверку — кусочек аудиодорожки фильма и трек в базе данных, который на него похож. 4 А человек отмечает, узнала ли программа мелодию. 4
Таким образом, благодаря автоматическим алгоритмам доля ручной работы значительно сокращается. 2 При этом автоматика не всегда справляется с задачей: иногда саундтрек играет на фоне разговора или шумной сцены, и программа не распознаёт музыку за посторонними звуками. 4