Несколько датасетов для машинного обучения, которые могут быть полезны для обработки русского языка:
RuAdapt: A Parallel Russian-Simple Russian Dataset. data-light.ru Параллельный корпус, содержащий тексты на русском языке и их упрощённые версии, используемый в задачах автоматического упрощения текста. data-light.ru
Gazeta Summaries. data-light.ru Коллекция статей и их кратких аннотаций на русском языке, полезная для задач суммаризации. data-light.ru
Russian Corpus of Biographical Texts. data-light.ru Корпус биографических текстов из Википедии для задачи автоматического поиска фрагментов в тексте. data-light.ru
Movie Plots from Wikipedia in Russian. data-light.ru Датасет с краткими пересказами сюжетов фильмов, мультфильмов, аниме, сериалов на русском языке. data-light.ru
KartaSlovSent. data-light.ru Датасет слов и выражений русского языка с разметкой тональности («положительное», «отрицательное», «нейтральное»). data-light.ru
RULEC-GEC. data-light.ru vc.ru Набор предложений, написанных людьми, изучающими русский язык как иностранный, аннотированный на предмет грамматических ошибок. data-light.ru
Выбор датасета зависит от конкретных задач и предпочтений пользователя.
Примеры полезных ответов Поиска с Алисой на вопросы из разных сфер. Вопросы сгенерированы нейросетью YandexGPT для актуальных тем, которые определяются на базе обобщённых запросов к Поиску с Алисой.