Система обнаружения музыкальных композиций во «ВКонтакте» основана на акустических отпечатках. habr.com Это представление аудиосигнала в виде набора значений, описывающих его физические свойства. habr.com
Процесс работает так: habr.com
- На каждом сервере для загрузки аудио работает движок, который принимает на вход mp3-файл, обрабатывает его и выдаёт акустический отпечаток. habr.com
- Данные об отпечатках хранятся в виде обратных индексов. habr.com Каждый отпечаток разбивается на хэши и сохраняется соответствие «хэш» — «список треков, в отпечатках которых он есть». habr.com
- В движок поиска приходит запрос с аудиозаписью, и нужно найти похожие на неё треки. habr.com
- Из хранилища скачивается отпечаток для этого аудио. habr.com
- В индексе выбираются строчки, содержащие хэши этого отпечатка. habr.com
- Из соответствующих строк выбираются часто встречающиеся треки, для них скачиваются отпечатки из хранилища. habr.com
- Эти отпечатки сравниваются с отпечатком исходного файла. habr.com
- В результате возвращаются самые похожие треки с соответствующими совпавшими фрагментами и условным «коэффициентом сходства» для этих фрагментов. habr.com
Кроме того, в 2023 году сообщалось, что в сервисе «VK Музыка» есть поиск по сниппетам — ключевым фрагментам треков длиной 35 секунд. www.ixbt.com www.rbc.ru Алгоритм рекомендаций подбирает сниппеты на основе музыкальных предпочтений каждого пользователя. www.ixbt.com www.rbc.ru