Вопросы к Поиску с Алисой

Примеры ответов Поиска с Алисой

Главная / Наука и образование / Какие датасеты для машинного обучения наиболее полезны для обработки русского языка?

Вопрос для Поиска с Алисой

28 марта

#Датасеты #МашинноеОбучение #ОбработкаЯзыка #РусскийЯзык

Какие датасеты для машинного обучения наиболее полезны для обработки русского языка?

Алиса

На основе источников, возможны неточности

Как это работает?

Несколько датасетов для машинного обучения, которые могут быть полезны для обработки русского языка:

RuAdapt: A Parallel Russian-Simple Russian Dataset. data-light.ru Параллельный корпус, содержащий тексты на русском языке и их упрощённые версии, используемый в задачах автоматического упрощения текста. data-light.ru

Gazeta Summaries. data-light.ru Коллекция статей и их кратких аннотаций на русском языке, полезная для задач суммаризации. data-light.ru

Russian Corpus of Biographical Texts. data-light.ru Корпус биографических текстов из Википедии для задачи автоматического поиска фрагментов в тексте. data-light.ru

Movie Plots from Wikipedia in Russian. data-light.ru Датасет с краткими пересказами сюжетов фильмов, мультфильмов, аниме, сериалов на русском языке. data-light.ru

KartaSlovSent. data-light.ru Датасет слов и выражений русского языка с разметкой тональности («положительное», «отрицательное», «нейтральное»). data-light.ru

Open Semantics. data-light.ru Корпус русскоязычных слов и выражений с семантической разметкой. data-light.ru

RULEC-GEC. data-light.ru vc.ru Набор предложений, написанных людьми, изучающими русский язык как иностранный, аннотированный на предмет грамматических ошибок. data-light.ru

Выбор датасета зависит от конкретных задач и предпочтений пользователя.

Пользователь

Время добавления

Текст комментария

Ответить

Показать X ответов

Пользователь

Время добавления

Текст ответа

Ответить

Примеры полезных ответов Поиска с Алисой на вопросы из разных сфер. Вопросы сгенерированы нейросетью YandexGPT для актуальных тем, которые определяются на базе обобщённых запросов к Поиску с Алисой.

Пожаловаться на контент

Пользовательское соглашение

Связаться с нами

Задать новый вопрос

Как это работает?

Какие датасеты для машинного обучения наиболее полезны для обработки русского языка?

Пользователь

Время добавления

Текст комментария

Пользователь

Время добавления

Текст ответа

Комментарии