Новое поколение: лучше справляется с вопросами пользователей и бизнеса, решает задачи и пишет код.

Что такое YandexGPT 5

Представляем новое поколение генеративных текстовых моделей Яндекса. Они качественнее справляются с ответами. На потоке, в котором сочетаются вопросы пользователей и сложные задачи, востребованные в бизнес-сфере, YandexGPT 5 Pro в 67% случаев превосходит аналогичную модель прошлого поколения. В некоторых типах задач — например в написании и суммаризации текстов — новая модель не уступает GPT-4o компании OpenAI и другим мировым лидерам.
«Новое поколение языковых моделей стало умнее, точнее и универсальнее…»
Екатерина Серажим
Андрей Бут
Руководитель команды Alignment YandexGPT

Какие есть модели нового поколения и где их попробовать

В пятом поколении две модели c длиной контекста 32 тысячи токенов: более мощная Pro и облегчённая Lite. YandexGPT 5 Pro доступна пользователям в режиме чата с Алисой, а компаниям — в Yandex Cloud AI Studio. Предобученная YandexGPT 5 Lite выложена в опенсорс и доступна на платформе Hugging Face.
Чем хороша YandexGPT 5 Pro

Лучше отвечает на вопросы пользователей

По результатам внутреннего слепого попарного сравнения для широкого потока запросов к сервисам Яндекса YandexGPT 5 Pro превосходит YandexGPT 4 Pro в 67% случаев и не уступает GPT-4o компании OpenAI.
Алексей Долотов об оценке качества моделей
Процент побед новой модели
YandexGPT 5 Pro
против YandexGPT 4 Pro
YandexGPT 5 Pro
против GPT-4o
YandexGPT 5 Pro
против Qwen 2.5 32b
Все запросы
67%
54%
64%
С большинством типовых задач и выполнением стандартизированных тестов (бенчмарков) YandexGPT 5 Pro справляется на уровне аналогичных по мощности моделей — лидеров рынка, а в некоторых категориях превосходит их.
Процент побед новой модели
Категория задач
YandexGPT 4 Pro
GPT-4o
Qwen 2.5 32b
Классификация
информации
70%
51%
60%
Выделение информации из текста
71%
48%
67%
Переформулировки
58%
51%
66%
Суммаризация
74%
56%
68%
Генерация текстов
65%
53%
62%
Процент успешно выполненных заданий
Название бенчмарка
YandexGPT 5 Pro
YandexGPT 4 Pro
GPT-4o
Qwen 2.5 32b
Факты из разных областей знаний
MMLU_RU Разработанная Яндексом русская адаптация бенчмарка MMLU, проверяющего способность модели понимать запросы и решать задачи из разных областей знаний
77%
64%
82%
76%
MMLU Классический бенчмарк, проверяющий способность модели понимать запросы и решать задачи из разных областей знаний
83%
71%
86%
84%
MMLU_PRO Расширенная версия классического бенчмарка MMLU с более сложными вопросами из разных областей
68%
44%
70%
69%
Навыки чтения в коротком контексте
DROP Классический бенчмарк, оценивающий способность модели понимать текст и решать содержащиеся в нём задачи
75%
64%
75%
70%
DROP_RU Разработанная Яндексом адаптация бенчмарка DROP, проверяющая способность модели решать задачи, сформулированные в тексте на русском языке
63%
52%
68%
61%
Следование заданному формату ответа
IFEval_RU Разработанная в Яндексе адаптация бенчмарка IFEval, проверяющего способность модели выполнять задания с учётом инструкций и ограничений
77%
70%
75%
72%
Crowd v2 Бенчмарк на основе задач по разметке текстов из Яндекс Заданий
80%
72%
74%
80%

Сильна в математике и программировании

По сравнению с моделями прошлого поколения YandexGPT 5 Pro гораздо лучше справляется с математическими задачами и написанием работающего кода.
Процент успешно решённых задач
Название бенчмарка
YandexGPT 5 Pro
YandexGPT 4 Pro
GPT-4o
Qwen 2.5 32b
MATH Бенчмарк, проверяющий способность модели решать математические задачи
81%
37%
79%
85% (83%) *
HUMAN_EVAL Бенчмарк, проверяющий способность модели генерировать работающий программный код
86%
39%
89%
84% (88%) *
* — по данным замера разработчика модели

Эффективна для бизнеса

Модель стала лучше работать со сложными задачами, которые важны для бизнеса. Для оценки мы используем специальный набор заданий на разные темы и разных типов: от суммаризации документа до автоматизации поддержки пользователей. В нём представлены реальные сценарии из сервисов Яндекса и другие прикладные задачи, для которых используются текстовые нейросети.
Процент побед новой модели
YandexGPT 4 Pro
GPT-4o
Qwen 2.5 32b
Задачи бизнеса
67%
53%
65%
«YandexGPT 5 стала существенно лучше отвечать на весь спектр запросов бизнеса…»
Екатерина Серажим
Алексей Долотов
Руководитель продуктового направления Yandex Cloud ML

Лучше работает с источниками данных

Для бизнес-заказчиков часто важно, чтобы модель отвечала, опираясь на конкретные источники — например на базу знаний компании. Эта технология называется RAG (Retrieval Augmented Generation). В работе с такими сценариями YandexGPT Pro 5 выигрывает как у модели прошлого поколения, так и у GPT-4o.
Процент побед новой модели
YandexGPT 4 Pro
GPT-4o
RAG-сценарии (ответ с опорой на источники)
68%
55%
Процент побед новой модели
Категория задач
YandexGPT 4 Lite
против 3 Lite
YandexGPT 4 Lite
против Llama 3.1 8B
Работа с источниками данных
61%
58%

Значительно эффективнее обращается к внешним функциям

YandexGPT 5 Pro умеет работать с внешними инструментами и API. Например, может сформировать по запросу пользователя вызов функции, чтобы узнать о последнем заказе или доступности товара, а потом использовать эти данные в ответе чат-бота. Процент успешно решённых задач такого рода по стандартному бенчмарку BFCL вырос у нового поколения с 54% до 66%.
Алексей Долотов о применении RAG
Процент успешно решённых задач
Название бенчмарка
YandexGPT 5 Pro
YandexGPT 4 Pro
GPT-4o
Qwen 2.5 32b
BFCL v4 Разработанный в Университете Беркли бенчмарк, проверяющий способность модели вызывать функции на разных языках программирования
66%
54%
71% *
61%
* — по данным внутреннего замера
Что за модель YandexGPT 5 Lite
YandexGPT 5 Lite — первая с 2022 года большая языковая модель Яндекса, выложенная в опенсорс. В решении большинства прикладных задач — например математических или связанных с написанием кода — она заметно превосходит аналогичную модель предыдущего поколения и не уступает сравнимым по мощности мировым моделям.

Предобученная версия (претрейн) YandexGPT 5 Lite доступна на платформе Hugging Face. Разработчики и исследователи могут дообучать её для решения своих задач.

Финальную дообученную модель скоро можно будет попробовать в чате с Алисой.

Андрей Бут про YandexGPT 5 Lite в опенсорсе
Процент успешно выполненных заданий
Название бенчмарка
YandexGPT 5 Lite Pretrain
YandexGPT 4 Lite
Llama 3.1 8b
Qwen 2.5 7b
Факты из разных областей знаний
MMLU_RU Разработанная Яндексом русская адаптация бенчмарка MMLU, проверяющего способность модели понимать запросы и решать задачи из разных областей знаний
70%
57%
54%
63%
MMLU Классический бенчмарк, проверяющий способность модели понимать запросы и решать задачи из разных областей знаний
77%
61%
65%
74%
MMLU_PRO Расширенная версия классического бенчмарка MMLU с более сложными вопросами из разных областей
48%
31%
34%
45%
Навыки чтения в коротком контексте
DROP Классический бенчмарк, оценивающий способность модели понимать текст и решать содержащиеся в нём задачи
68%
53%
63%
65%
DROP_RU Разработанная Яндексом адаптация бенчмарка DROP, проверяющая способность модели решать задачи, сформулированные в тексте на русском языке
56%
53%
50%
54%
Математические навыки
GSM8k
81%
42%
56%
85%
MATH Бенчмарк, проверяющий способность модели решать математические задачи
49%
15%
22%
54% (50%) *
* — по данным замера разработчика модели
Написание кода
HUMAN_EVAL Бенчмарк, проверяющий способность модели генерировать работающий программный код
67%
23%
42%
61% (58%)*
* — по данным замера разработчика модели
В чём YandexGPT 5 стала лучше — показываем на примерах

Классификация

Модель корректно оценивает ответ и выдаёт решение в заданном формате.

"Задача: Определить правильность ответа ученика на вопрос учителя. Если ответ правильный, отметить его как ""правильный"". Если ответ неправильный, отметить его как ""неправильный"". Если ответ некорректный (не по теме), отметить его как ""некорректный"". Вернуть результат в формате JSON.

Примеры:

Вопрос: ""Сколько будет 2 + 2?""
Ответ ученика: ""4""
Результат: {""status"": ""правильный""}

Вопрос: ""Сколько будет 2 + 2?""
Ответ ученика: ""5""
Результат: {""status"": ""неправильный""}

Вопрос: ""Что такое гравитация?""
Ответ ученика: ""Это сила притяжения, действующая между объектами с массой.""
Результат: {""status"": ""правильный""}

Вопрос: ""Что такое гравитация?""
Ответ ученика: ""Сила, заставляющая яблоки падать вверх.""
Результат: {""status"": ""неправильный""}

Вопрос: ""lim x->0(x)""
Ответ ученика: ""0""
Результат: {""status"": ""правильный""}

Вопрос: ""lim x->0(x)""
Ответ ученика: ""52""
Результат: {""status"": ""неправильный""}

Вопрос: ""Что тяжелее килограм яблок или килограм железа?""
Ответ ученика: ""Килограм железа""

Проверь ответ ученика и верни результат в формате JSON:
"

Было
Стало

{"status": "правильный"}

decoration arrow

{"status": "неправильный"}

Ответ в заданном формате

Модель извлекает информацию из текста и представляет в строго соответствии с требуемым форматом — например, для публикации на сайте

Отвечай только в формате JSON и больше ничего не пиши.

Твоя задача - распознать в тексте все позиции товаров и разобрать их на параметры и характеристики номенклатуры и предоставить ответ распознанных данных в виде json массива с обязательным указанием каждой позиции и ее характиристик строками по примеру (если в тексте нет характеристик - пиши null):

Диаметр - item_diameter
Толщина - item_thickness
Сталь - item_steel
Стандарт - item_standart
Категория товаров - item_category (для примера, категория - это, например, круг, квадрат, арматура и так далее)

Круг ф30 сталь AISI316L/316Ti — 1м

Было
Стало

[
{
\"Диаметр\": \"30\",
\"Толщина\": null,
\"Сталь\": \"AISI316L/316Ti\",
\"Стандарт\": null,
\"Категория товаров\": \"круг\",
\"Длина\": \"1 м\"
}
]

decoration arrow

[
{
\"item_diameter\": \"30\",
\"item_thickness\": null,
\"item_steel\": \"AISI316L/316Ti\",
\"item_standart\": null,
\"item_category\": \"круг\"
}
]

Задачи

Модель лучше понимает сложное условие и приходит к правильному ответу.

Загадка - 4 человека, в соло они перейдут мост за 1,2,5,10 минут, но мост слабенький, и максимум могут переходить двое, и темно, и нужно чтобы при переходе светил фонарик, и фонарик только один, значит кто-то один должен возвращаться. За какое минимальное время все черверо перейдут мост. Кратко опиши решение и дай ответ

Было
Стало

"Для решения этой задачи нужно проанализировать время, необходимое каждому человеку для перехода через мост индивидуально, и разработать оптимальный порядок переходов, чтобы минимизировать общее время.

1. Обозначим людей как А (1 минута), В (2 минуты), С (5 минут) и D (10 минут).
2. Самое важное — эффективно использовать время самого быстрого человека (А), так как он может переносить фонарик.
3. Нужно свести к минимуму время, которое А тратит на переходы туда-обратно с фонариком.
4. Одним из оптимальных вариантов будет тот, где А и В переходят вместе (В несёт фонарик обратно), затем А возвращается с фонариком, после чего С и А переходят вместе. Наконец, А приносит обратно фонарик, и они переходят с D.
5. Рассчитаем время:
- Переход А и В: 2 минуты;
- Возвращение А с фонариком: 1 минута;
- Переход С и А: 5 минут (поскольку А несёт С);
- Перерыв для возвращения А за D: 6 минут (от момента окончания предыдущего этапа);
- Финальный переход с D: 10 минут.
6. Суммируем все временные промежутки:
$2 + 1 + 5 + 6 + 10 = 24$ минуты.

Ответ: все четверо перейдут мост за 24 минуты при наиболее эффективном использовании времени и ресурсов."

decoration arrow

"1. Два самых быстрых человека (1 минута и 2 минуты) переходят на другую сторону. Затраченное время: 2 минуты.
2. Человек, который пересёк мост за 1 минуту, возвращается назад с фонариком. Затраченное время: 1 минута (итого: 3 минуты).
3. Два медленных человека (5 минут и 10 минут) переходят на другую сторону. Затраченное время: 10 минут (итого: 13 минут).
4. Человек, который перешёл мост за 2 минуты, возвращается назад, чтобы провести последнего человека. Затраченное время: 2 минуты (итого: 15 минут).
5. Два быстрых человека снова переходят мост. Затраченное время: 2 минуты (итого общее время: 17 минут)."

Попробуйте
YandexGPT 5
Попробовать YandexGPT 5 Pro в режиме чата можно в Алисе. Подписчики опции «Алиса Про» могут общаться с новой моделью без ограничений, остальным пользователям доступны 20 запросов в день.
Бизнес-заказчикам YandexGPT 5 Pro доступна на платформе Yandex Cloud AI Studio. Там есть всё, что требуется для интеграции — API, AI Playground, инструменты для создания AI-ассистентов и другие возможности.
Tue Feb 25 2025 20:03:21 GMT+0300 (Moscow Standard Time)