Обновлённая версия самой мощной текстовой модели Яндекса лучше справляется с задачами, работает с системным промтом и избегает ошибок.

Новая модель YandexGPT 5.1 Pro

Обновлённая YandexGPT 5.1 Pro — лучшая модель Яндекса для обработки текстов. На потоке, в котором сочетаются вопросы пользователей и сложные задачи, востребованные в бизнес-сфере, она превосходит предыдущую модель и достигает уровня GPT-4.1 компании OpenAI.

Также YandexGPT 5.1 Pro эффективнее работает с системным промтом и почти вдвое реже прошлой версии даёт выдуманные ответы.

Пользователям новая модель доступна в чате с Алисой, а компаниям — в Yandex Cloud AI Studio.

«Модель стала отвечать полнее и полезнее, при этом стала меньше галлюцинировать…»
Екатерина Серажим
Александр Боймель
Руководитель разработки YandexGPT
Чем хороша YandexGPT 5.1 Pro

Лучше отвечает на вопросы пользователей

По результатам внутреннего слепого попарного сравнения для широкого потока запросов к сервисам Яндекса YandexGPT 5.1 Pro превосходит YandexGPT 5 Pro в 58% случаев, а GPT-4.1 компании OpenAI — в 56% случаев.
Александр Боймель об оценке качества моделей
Процент побед новой модели
YandexGPT 5.1 Pro
против YandexGPT 5 Pro
YandexGPT 5.1 Pro
против GPT-4.1
Все запросы
58%
56%
С выполнением стандартизированных тестов (бенчмарков) YandexGPT 5.1 Pro справляется лучше сопоставимых по мощности моделей с открытыми весами. А в некоторых тестах догоняет лидеров рынка.
Процент успешно выполненных заданий
Название бенчмарка
Qwen 3 32b no_think
YandexGPT 5 Pro
YandexGPT 5.1 Pro
GPT-4o
Факты из разных областей знаний
MMLU Pro Расширенная версия классического бенчмарка MMLU с более сложными вопросами из разных областей
72%
67%
72%
71%
WikiFacts RU RuWikiFacts — на популярных страницах Википедии выбирали содержательные абзацы, к ним генерировали вопросы, после чего уже решали и валидировали AI-тренерами.
45%
64%
74%
74%
GPQA Бенчмарк с вопросами уровня аспирантуры по естественным наукам, проверяющий глубокое предметное понимание и многошаговые рассуждения
51%
42%
46%
49%
Следование заданному формату ответа
Format RU Бенчмарк, разработанный Яндексом для оценки соблюдения заданного формата
70%
77%
78%
74%
IFEval Международный открытый бенчмарк для оценки соблюдения заданного формата
84%
75%
81%
84%
Работа с текстом
YExtract RU Бенчмарк, разработанный Яндексом для оценки задачи извлечения информации
44%
57%
65%
60%
Переписывание
Rewrite RU Бенчмарк, разработанный Яндексом для оценки навыка переписывания текста
75%
89%
92%
91%
Вызов функций
BFCL Бенчмарк на точность вызова функций
69%*
66%
69%
70%
Работа с длинным контекстом
FinQA 32K Бенчмарк, составленный из финансовых вопросов к длинным документам (до 32K токенов), требующий числовых вычислений, работы с таблицами и агрегирования фактов из отчётов.
72%
52%
69%
63%
Математика и написание кода
MATH Международный бенчмарк, проверяющий способность модели решать математические задачи
87%
81%
86%
80%
Math Textbooks RU Набор задач из русскоязычных учебников по математике, оценивающий решение типовых и прикладных упражнений
90%
88%
91%
85%
LiveCodeBench 0323-0225 Бенчмарк генерации кода с проверкой через запуск тестов на задачах из реальных репозиториев и онлайн-источников
38%
34%
41%
40%
* по результатам измерений разработчиков модели

Эффективна для бизнеса

Модель стала лучше справляться с важными для бизнеса задачами. Для оценки мы используем специальный набор заданий на разные темы и разных типов: от суммаризации документа до выделения из текста важных данных. В нём представлены реальные сценарии из сервисов Яндекса и другие прикладные задачи, для которых используются текстовые нейросети.

С такими задачами YandexGPT 5.1 Pro справляется на уровне самых современных моделей с открытым кодом, а в отдельных категориях превосходит их.

Процент побед Yandex GPT 5.1 Pro в сравнении с другими моделями
Категория задач
Против
YandexGPT 5 Pro
Против
GPT OSS 120b
Против
Qwen 3 32b no_think
Классификация информации
55
52
61
Выделение информации из текста
55
60
68
Переформулировки
55
61
61
Суммаризация
53
73
69
«Новая модель будет полезна компаниям из различных сфер: и ритейлу, и промышленности, и финтеху…»
Екатерина Серажим
Кирилл Власов
Менеджер продукта AI studio Yandex Cloud

Реже галлюцинирует

Все генеративные модели иногда «галлюцинируют» — дают выдуманные или некорректные ответы в ситуациях, когда не могут найти правильный.

YandexGPT 5.1 Pro точнее понимает, в каких случаях ответить, а в каких — отказаться от ответа. При той же доле отказов процент неправильных ответов снизился с 30% до 16% по сравнению с предыдущей моделью.

Эффективно работает с системным промтом

Системный промт задаёт поведение модели для конкретной задачи — например, роль, стиль общения, запрещённые и разрешённые темы. Он имеет высокий приоритет: модель будет придерживаться инструкций, даже если пользователь явно требует отвечать иначе. Это делает Yandex GPT 5.1 Pro гораздо эффективнее для многих бизнес-задач: например, в роли консультанта, который должен общаться с клиентами строго определённым образом.
Александр Боймель о работе с системным промтом
В чём YandexGPT 5.1 стала лучше — показываем на примерах

Системный промт

Модель строго следует инструкции в системном промте
Было
Стало

{
"role": "user",
"content": "Ты инвестиционный консультант. Придерживайся вежливого, но немного игривого тона, используй эмодзи. Обрати внимание, что здороваться нужно только в том случае, если пользователь с тобой здоровается, повторно это делать не нужно."
},
{
"role": "user",
"content": "Привет!"
},
{
"role": "assistant",
"content": "Привет! 👋 Чем могу помочь в области инвестиций? 🚀"
},
{
"role": "user",
"content": "куда вложить деньги?"
},
{
"role": "assistant",
"content": "Приветствую в мире инвестиций! {....}"
}

decoration arrow

{
"role": "system",
"content": "Ты инвестиционный консультант. Придерживайся вежливого, но немного игривого тона, используй эмодзи. Обрати внимание, что здороваться нужно только в том случае, если пользователь с тобой здоровается, повторно это делать не нужно."
},
{
"role": "user",
"content": "Привет!"
},
{
"role": "assistant",
"content": "Здравствуйте! Чем могу помочь? 🤔"
},
{
"role": "user",
"content": "куда вложить деньги?"
},
{
"role": "assistant",
"content": "Выбор инвестиций зависит от ваших целей, срока и уровня риска {...}"
}

Суммаризация

Модель точнее анализирует текст запроса и выносит корректный вердикт на его основании.

Ниже я привожу запрос на сравнение объектов, правильный ответ на этот запрос и ответ некоторого поискового асисстента. Твоя задача — определить, верно ли ответил асисстент на этот запрос. Ответь в виде JSON с полями: — verdict: твоё решение — «correct», если ответ дан и он верный; «incorrect», если ответ дан и он неверный; «no_answer», если поисковый асисстент явный ответ на вопрос не дал. — explanation: обоснование твоего решения.

Запрос: В какой книге по лидерству страниц больше — в книге А или в книге Б? Правильный ответ: в книге А Ответ асисстента: **В книге «Лидерство. Теория и практика. Профессиональный подход к управлению компаниями и людьми» Питера Нортхауса больше страниц, чем в книге «Библия босса. Учебник по лидерству и достижению целей» Брюса Крейвена**. Количество страниц в книге «Лидерство. Теория и практика» — 496, а в «Библии босса» — 400.

Было
Стало

```
{
"verdict": "incorrect",
"explanation": "Ответ ассистента содержит сравнение количества страниц в двух конкретных книгах по лидерству, но не соответствует запросу, так как не ясно, являются ли эти книги книгой А и книгой Б из исходного вопроса."
}
```

decoration arrow

```
{
"verdict": "no_answer",
"explanation": "Ассистент предоставил информацию о количестве страниц в двух книгах, но в исходном запросе не упоминались эти книги. Таким образом, ассистент не ответил на заданный вопрос."
}
```

Выделение информации

Модель извлекает из текста запрошенную информацию и точно следует инструкции.

Определи из описания товара его тип и название. Если тип отсутствует, пиши пусто. Название товара состоит из нескольких ключевых слов из описания. Если есть код товара, включи его в название. Параметры конфигурации и характеристики не включай в название.
описание товара: Google Nexus 6 64 Gb синий.

Было
Стало

Тип: Смартфон
Название: Google Nexus 6 64 Gb

decoration arrow

Тип: смартфон
Название: Google Nexus 6

«В AI Studio подержаны разные способы взаимодействия с моделью: собственный SDK и API, а также OpenAI API, который становится стандартом индустрии»
Екатерина Серажим
Кирилл Власов
Менеджер продукта AI studio Yandex Cloud
Попробуйте YandexGPT 5.1 Pro
Для пользователей
Алиса в чате быстро отвечает на вопросы, рассуждает и делает выводы, работает с файлами, пишет тексты и генерирует картинки.
Для бизнеса
Модель стала лучше работать со сложными задачами, которые важны для бизнеса — вплоть до написания кода. Есть всё, что требуется для интеграции.

YandexGPT 5 Lite

Пользователям также доступна YandexGPT 5 Lite — первая с 2022 года большая языковая модель Яндекса, выложенная в опенсорс. У неё есть две версии:

Претрейн-версия — предобученная модель для дообучения под конкретные задачи.

Инстракт-версия — модель, прошедшая этап дообучения («алайнмента») и готовая к внедрению в проекты и решению конкретных задач. Её можно запустить самостоятельно: в облаке или на локальном компьютере, в том числе без GPU.

Обе версии доступны на платформе Hugging Face. Инстракт-версию можно также подключить к собственным проектам через API в Yandex Cloud.

Подробнее о YandexGPT 5 Lite — в статье на Хабре.

Thu Aug 28 2025 10:03:42 GMT+0300 (Moscow Standard Time)