Представляем

Yandex Music
Billion-Interactions Dataset

Yandex Music Billion-Interactions Dataset (YaMBDa)

— это large-scale-датасет

, построенный на логах Яндекс Музыки — крупнейшего подписного стримингового сервиса в России (слушают 28 млн подписчиков Плюса в месяц, по данным на март 2025 года).

Мы считаем, что у нашего датасета есть потенциал стать стандартом для оценки рекомендательных алгоритмов, использующих машинное обучение, — как в индустрии, так и в академической среде.

Набор данных для обучения и оценки моделей машинного обучения, включающий миллионы объектов и приближённый по сложности к реальным условиям.

Подробнее

Ключевые особенности

Настоящий large-scale

4,78 млрд событий, 1 млн пользователей, 9,39 млн айтемов

Данные за большой
временной промежуток

10 месяцев

Несколько типов взаимодействия

прослушивание, пара «лайк-анлайк», пара «дизлайк-андизлайк»

Контентные эмбеддинги
треков

Global Temporal Split

для приближённых
к реальности замеров

Флаг «is_organic»

показывает, было ли действие пользователя органическим

Зачем это нужно

В области рекомендательных систем существует проблема с доступностью данных. Главная причина — невозможность общего доступа к данным с коммерческой ценностью.

В то же время современные алгоритмы, построенные на ML, которые используются в реальных рекомендательных сервисах, требуют гораздо больших объёмов данных для обучения, чем можно найти в опенсорсе. Это накладывает отпечаток на исследователей: проверять гипотезы приходится на маленьких датасетах. (В NLP уже показали

, как количество данных в обучении влияет на качество модели).

Мы хотим исправить эту ситуацию и выкладываем в открытый доступ датасет, превышающий по масштабу любой известный нам открытый набор данных в области рекомендательных систем. С его помощью исследователи со всего мира смогут пробовать новые подходы, требующие больших объёмов данных для обучения. Мы также надеемся, что наша инициатива подтолкнёт к развитию всю область рекомендаций.

Статистика

Для удобства мы подготовили три версии датасета: Yambda-50M, Yambda-500M и Yambda-5B.

Events

Organic vs. Recommender events

User history length

Size	Users	Items	Listens	Likes	Dislikes	Unlikes	Undislikes
Yambda-50M	10 000	934 057	46 467 212	881 456	107 776	312 972	21 033
Yambda-500M	100 000	3 004 578	466 512 103	9 033 960	1 128 113	3 309 936	271 452
Yambda-5B	1 000 000	9 390 623	4 649 567 411	89 334 605	11 579 143	32 944 520	2 434 208

Event Type	Organic	Total	Ratio
Listen	2 383 167 013	4 649 568 105	51.26%
Like	51 545 035	89 334 613	57.70%
Dislike	5 966 711	11 579 143	51.53%
Unlike	31 293 403	32 944 521	94.99%
Undislike	2 195 073	2 434 208	90.18%

Yandex Music
Billion-Interactions Dataset