Представляем

Yandex Music
Billion-Interactions Dataset

Yandex Music Billion-Interactions Dataset (YaMBDa) — это large-scale-датасет , построенный на логах Яндекс Музыки — крупнейшего подписного стримингового сервиса в России (слушают 28 млн подписчиков Плюса в месяц, по данным на март 2025 года).
Мы считаем, что у нашего датасета есть потенциал стать стандартом для оценки рекомендательных алгоритмов, использующих машинное обучение, — как в индустрии, так и в академической среде.
Звездочка
Набор данных для обучения и оценки моделей машинного обучения, включающий миллионы объектов и приближённый по сложности к реальным условиям.

Ключевые особенности

Настоящий large-scale

Настоящий large-scale

4,78 млрд событий, 1 млн пользователей, 9,39 млн айтемов
Данные за большой временной промежуток

Данные за большой
временной промежуток

10 месяцев
Несколько типов взаимодействия

Несколько типов взаимодействия

прослушивание, пара «лайк-анлайк», пара «дизлайк-андизлайк»
Контентные эмбеддинги треков

Контентные эмбеддинги
треков

Global Temporal Split

Global Temporal Split

для приближённых
к реальности замеров
Флаг «is_organic»

Флаг «is_organic»

показывает, было ли действие пользователя органическим

Зачем это нужно

В области рекомендательных систем существует проблема с доступностью данных. Главная причина — невозможность общего доступа к данным с коммерческой ценностью.
В то же время современные алгоритмы, построенные на ML, которые используются в реальных рекомендательных сервисах, требуют гораздо больших объёмов данных для обучения, чем можно найти в опенсорсе. Это накладывает отпечаток на исследователей: проверять гипотезы приходится на маленьких датасетах. (В NLP уже показали , как количество данных в обучении влияет на качество модели).
Мы хотим исправить эту ситуацию и выкладываем в открытый доступ датасет, превышающий по масштабу любой известный нам открытый набор данных в области рекомендательных систем. С его помощью исследователи со всего мира смогут пробовать новые подходы, требующие больших объёмов данных для обучения. Мы также надеемся, что наша инициатива подтолкнёт к развитию всю область рекомендаций.

Статистика

Для удобства мы подготовили три версии датасета: Yambda-50M, Yambda-500M и Yambda-5B.
Size
Users
Items
Listens
Likes
Dislikes
Unlikes
Undislikes
Yambda-50M
10 000
934 057
46 467 212
881 456
107 776
312 972
21 033
Yambda-500M
100 000
3 004 578
466 512 103
9 033 960
1 128 113
3 309 936
271 452
Yambda-5B
1 000 000
9 390 623
4 649 567 411
89 334 605
11 579 143
32 944 520
2 434 208
Event Type
Organic
Total
Ratio
Listen
2 383 167 013
4 649 568 105
51.26%
Like
51 545 035
89 334 613
57.70%
Dislike
5 966 711
11 579 143
51.53%
Unlike
31 293 403
32 944 521
94.99%
Undislike
2 195 073
2 434 208
90.18%

History length distribution

History length log-distribution