YandexGPT 5

Новое поколение: лучше справляется с вопросами пользователей и бизнеса, решает задачи и пишет код.

Что такое YandexGPT 5

Представляем новое поколение генеративных текстовых моделей Яндекса. Они качественнее справляются с ответами. На потоке, в котором сочетаются вопросы пользователей и сложные задачи, востребованные в бизнес-сфере, YandexGPT 5 Pro в 67% случаев превосходит аналогичную модель прошлого поколения. В некоторых типах задач — например в написании и суммаризации текстов — новая модель не уступает GPT-4o компании OpenAI и другим мировым лидерам.

В пятом поколении две модели c длиной контекста 32 тысячи токенов: более мощная Pro и облегчённая Lite.

«Новое поколение языковых моделей стало умнее, точнее и универсальнее…»

Андрей Бут

Руководитель команды Alignment YandexGPT

YandexGPT 5 Pro

Самая мощная модель YandexGPT 5 Pro доступна пользователям в режиме чата с Алисой, а компаниям — в Yandex Cloud AI Studio.

YandexGPT 5 Lite: претрейн и инстракт

YandexGPT 5 Lite выложена в опенсорс и доступна в двух версиях.

Претрейн-версия — предобученная модель для дообучения под конкретные задачи.

Инстракт-версия — модель, прошедшая этап дообучения («алайнмента») и готовая к внедрению в проекты и решению конкретных задач. Её можно запустить самостоятельно: в облаке или на локальном компьютере, в том числе без GPU.

Обе версии доступны на платформе Hugging Face. Инстракт-версию можно также попробовать в Чате с Алисой и подключить к собственным проектам через API в Yandex CLoud

Чем хороша YandexGPT 5 Pro

Лучше отвечает на вопросы пользователей

По результатам внутреннего слепого попарного сравнения для широкого потока запросов к сервисам Яндекса YandexGPT 5 Pro превосходит YandexGPT 4 Pro в 67% случаев и не уступает GPT-4o компании OpenAI.

Алексей Долотов об оценке качества моделей

YandexGPT 4 Pro

YandexGPT 4 Lite

Процент побед новой модели

YandexGPT 5 Pro
против YandexGPT 4 Pro

YandexGPT 5 Pro
против GPT-4o

YandexGPT 5 Pro
против Qwen 2.5 32b

Все запросы

67%

54%

64%

С большинством типовых задач и выполнением стандартизированных тестов (бенчмарков) YandexGPT 5 Pro справляется на уровне аналогичных по мощности моделей — лидеров рынка, а в некоторых категориях превосходит их.

YandexGPT 4 Pro

YandexGPT 4 Lite

Процент побед новой модели

Категория задач

YandexGPT 4 Pro

GPT-4o

Qwen 2.5 32b

Классификация
информации

70%

51%

60%

Выделение информации из текста

71%

48%

67%

Переформулировки

58%

51%

66%

Суммаризация

74%

56%

68%

Генерация текстов

65%

53%

62%

Процент успешно выполненных заданий

Название бенчмарка

YandexGPT 5 Pro

YandexGPT 4 Pro

GPT-4o

Qwen 2.5 32b

Факты из разных областей знаний

MMLU_RU

77%

64%

82%

76%

MMLU

83%

71%

86%

84%

MMLU_PRO

68%

44%

70%

69%

Навыки чтения в коротком контексте

DROP

75%

64%

75%

70%

DROP_RU

63%

52%

68%

61%

Следование заданному формату ответа

IFEval_RU

77%

70%

75%

72%

Crowd v2

80%

72%

74%

80%

Сильна в математике и программировании

По сравнению с моделями прошлого поколения YandexGPT 5 Pro гораздо лучше справляется с математическими задачами и написанием работающего кода.

Процент успешно решённых задач

Название бенчмарка

YandexGPT 5 Pro

YandexGPT 4 Pro

GPT-4o

Qwen 2.5 32b

MATH

81%

37%

79%

85% (83%) *

HUMAN_EVAL

86%

39%

89%

84% (88%) *

* — по данным замера разработчика модели

Эффективна для бизнеса

Модель стала лучше работать со сложными задачами, которые важны для бизнеса. Для оценки мы используем специальный набор заданий на разные темы и разных типов: от суммаризации документа до автоматизации поддержки пользователей. В нём представлены реальные сценарии из сервисов Яндекса и другие прикладные задачи, для которых используются текстовые нейросети.

Процент побед новой модели

YandexGPT 4 Pro

GPT-4o

Qwen 2.5 32b

Задачи бизнеса

67%

53%

65%

«YandexGPT 5 стала существенно лучше отвечать на весь спектр запросов бизнеса…»

Алексей Долотов

Руководитель продуктового направления Yandex Cloud ML

Лучше работает с источниками данных

Для бизнес-заказчиков часто важно, чтобы модель отвечала, опираясь на конкретные источники — например на базу знаний компании. Эта технология называется RAG (Retrieval Augmented Generation). В работе с такими сценариями YandexGPT Pro 5 выигрывает как у модели прошлого поколения, так и у GPT-4o.

YandexGPT 4 Pro

YandexGPT 4 Lite

Процент побед новой модели

YandexGPT 4 Pro

GPT-4o

RAG-сценарии (ответ с опорой на источники)

68%

55%

Процент побед новой модели

Категория задач

YandexGPT 4 Lite
против 3 Lite

YandexGPT 4 Lite
против Llama 3.1 8B

Работа с источниками данных

61%

58%

Значительно эффективнее обращается к внешним функциям

YandexGPT 5 Pro умеет работать с внешними инструментами и API. Например, может сформировать по запросу пользователя вызов функции, чтобы узнать о последнем заказе или доступности товара, а потом использовать эти данные в ответе чат-бота. Процент успешно решённых задач такого рода по стандартному бенчмарку BFCL вырос у нового поколения с 54% до 66%.

Алексей Долотов о применении RAG

Процент успешно решённых задач

Название бенчмарка

YandexGPT 5 Pro

YandexGPT 4 Pro

GPT-4o

Qwen 2.5 32b

BFCL v3

66%

54%

71% *

61%

* — по данным внутреннего замера

Что за модель YandexGPT 5 Lite

YandexGPT 5 Lite — первая с 2022 года большая языковая модель Яндекса, выложенная в опенсорс. В решении большинства прикладных задач — например математических или связанных с написанием кода — она заметно превосходит аналогичную модель предыдущего поколения и не уступает сравнимым по мощности мировым моделям.

Андрей Бут про YandexGPT 5 Lite в опенсорсе

Предобученная версия

Предобученная версия (претрейн) YandexGPT 5 Lite доступна на платформе Hugging Face. Разработчики и исследователи могут дообучать её для решения своих задач.

Процент успешно выполненных заданий

Название бенчмарка

YandexGPT 5 Lite Pretrain

YandexGPT 4 Lite

Llama 3.1 8b

Qwen 2.5 7b

Факты из разных областей знаний

MMLU_RU

70%

57%

54%

63%

MMLU

77%

61%

65%

74%

MMLU_PRO

48%

31%

34%

45%

Навыки чтения в коротком контексте

DROP

68%

53%

63%

65%

DROP_RU

56%

53%

50%

54%

Математические навыки

GSM8k

81%

42%

56%

85%

MATH

49%

15%

22%

54% (50%) *

* — по данным замера разработчика модели

Написание кода

HUMAN_EVAL

67%

23%

42%

61% (58%)*

* — по данным замера разработчика модели

Дообученная версия

Финальную дообученную модель (инстракт-версию) кроме Hugging Face можно попробовать в Чате с Алисой и через API в Yandex CLoud.

По данным внутренних замеров, она превосходит аналогичную модель прошлого поколения и сравнимую по мощности модель Qwen-2.5-7B-instruct, а также не уступает GPT-4o mini в решении стандартных пользовательских задач на сервисах Яндекса.

YandexGPT 4 Pro

YandexGPT 4 Lite

Процент побед

YandexGPT 4 Lite

YandexGPT 4 Pro

Qwen-2.5-7B-instruct

GPT-4o Mini

YandexGPT 4 Lite

45%

55%

45%

YandexGPT 5 Lite

59%

52%

62%

51%

В выполнении стандартизированных тестов (бенчмарков) инстракт-версия YandexGPT 5 Lite вплотную приблизилась к аналогичным мировым моделям и превосходит их в ряде сценариев, например, в задачах классификации и разметки текстов, умении отвечать в заданном формате, знании русской культуры и фактов.

Процент успешно выполненных заданий

Название бенчмарка

YandexGPT 5 Lite Instruct

YandexGPT 4 Lite

Qwen 2.5-7b-Instruct

GPT-4o Mini

Факты из разных областей знаний

MMLU

76%

58%

75%

81%

MMLU_PRO

52%

29%

56%

63%

Факты и культура

RuFacts

81%

76%

45%

67%

RuCulture

58%

52%

31%

44%

Следование заданному формату ответа

IFEval_RU

77%

64%

66%

68%

Математические навыки

GSM8K

88%

63%

90%

93%

SchoolMath 5-9

89%

53%

85%

84%

Классификация

Crowd v2

73%

62%

53%

69%

Навыки чтения

DROP_RU

58%

40%

49%

60%

В чём YandexGPT 5 стала лучше — показываем на примерах

Классификация

Модель корректно оценивает ответ и выдаёт решение в заданном формате.

"Задача: Определить правильность ответа ученика на вопрос учителя. Если ответ правильный, отметить его как ""правильный"". Если ответ неправильный, отметить его как ""неправильный"". Если ответ некорректный (не по теме), отметить его как ""некорректный"". Вернуть результат в формате JSON.

Примеры:

Вопрос: ""Сколько будет 2 + 2?""
Ответ ученика: ""4""
Результат: {""status"": ""правильный""}

Вопрос: ""Сколько будет 2 + 2?""
Ответ ученика: ""5""
Результат: {""status"": ""неправильный""}

Вопрос: ""Что такое гравитация?""
Ответ ученика: ""Это сила притяжения, действующая между объектами с массой.""
Результат: {""status"": ""правильный""}

Вопрос: ""Что такое гравитация?""
Ответ ученика: ""Сила, заставляющая яблоки падать вверх.""
Результат: {""status"": ""неправильный""}

Вопрос: ""lim x->0(x)""
Ответ ученика: ""0""
Результат: {""status"": ""правильный""}

Вопрос: ""lim x->0(x)""
Ответ ученика: ""52""
Результат: {""status"": ""неправильный""}

Вопрос: ""Что тяжелее килограм яблок или килограм железа?""
Ответ ученика: ""Килограм железа""

Проверь ответ ученика и верни результат в формате JSON:
"

Было

Стало

{"status": "правильный"}

{"status": "неправильный"}

Ответ в заданном формате

Модель извлекает информацию из текста и представляет в строго соответствии с требуемым форматом — например, для публикации на сайте

Отвечай только в формате JSON и больше ничего не пиши.

Твоя задача - распознать в тексте все позиции товаров и разобрать их на параметры и характеристики номенклатуры и предоставить ответ распознанных данных в виде json массива с обязательным указанием каждой позиции и ее характиристик строками по примеру (если в тексте нет характеристик - пиши null):

Диаметр - item_diameter
Толщина - item_thickness
Сталь - item_steel
Стандарт - item_standart
Категория товаров - item_category (для примера, категория - это, например, круг, квадрат, арматура и так далее)

Круг ф30 сталь AISI316L/316Ti — 1м

Было

Стало

[
{
\"Диаметр\": \"30\",
\"Толщина\": null,
\"Сталь\": \"AISI316L/316Ti\",
\"Стандарт\": null,
\"Категория товаров\": \"круг\",
\"Длина\": \"1 м\"
}
]

[
{
\"item_diameter\": \"30\",
\"item_thickness\": null,
\"item_steel\": \"AISI316L/316Ti\",
\"item_standart\": null,
\"item_category\": \"круг\"
}
]

Задачи

Модель лучше понимает сложное условие и приходит к правильному ответу.

Загадка - 4 человека, в соло они перейдут мост за 1,2,5,10 минут, но мост слабенький, и максимум могут переходить двое, и темно, и нужно чтобы при переходе светил фонарик, и фонарик только один, значит кто-то один должен возвращаться. За какое минимальное время все черверо перейдут мост. Кратко опиши решение и дай ответ

Было

Стало

"Для решения этой задачи нужно проанализировать время, необходимое каждому человеку для перехода через мост индивидуально, и разработать оптимальный порядок переходов, чтобы минимизировать общее время.

1. Обозначим людей как А (1 минута), В (2 минуты), С (5 минут) и D (10 минут).
2. Самое важное — эффективно использовать время самого быстрого человека (А), так как он может переносить фонарик.
3. Нужно свести к минимуму время, которое А тратит на переходы туда-обратно с фонариком.
4. Одним из оптимальных вариантов будет тот, где А и В переходят вместе (В несёт фонарик обратно), затем А возвращается с фонариком, после чего С и А переходят вместе. Наконец, А приносит обратно фонарик, и они переходят с D.
5. Рассчитаем время:
- Переход А и В: 2 минуты;
- Возвращение А с фонариком: 1 минута;
- Переход С и А: 5 минут (поскольку А несёт С);
- Перерыв для возвращения А за D: 6 минут (от момента окончания предыдущего этапа);
- Финальный переход с D: 10 минут.
6. Суммируем все временные промежутки:
$2 + 1 + 5 + 6 + 10 = 24$ минуты.

Ответ: все четверо перейдут мост за 24 минуты при наиболее эффективном использовании времени и ресурсов."

"1. Два самых быстрых человека (1 минута и 2 минуты) переходят на другую сторону. Затраченное время: 2 минуты.
2. Человек, который пересёк мост за 1 минуту, возвращается назад с фонариком. Затраченное время: 1 минута (итого: 3 минуты).
3. Два медленных человека (5 минут и 10 минут) переходят на другую сторону. Затраченное время: 10 минут (итого: 13 минут).
4. Человек, который перешёл мост за 2 минуты, возвращается назад, чтобы провести последнего человека. Затраченное время: 2 минуты (итого: 15 минут).
5. Два быстрых человека снова переходят мост. Затраченное время: 2 минуты (итого общее время: 17 минут)."

Попробуйте YandexGPT 5

Попробовать YandexGPT 5 Pro в режиме чата можно в Алисе. Чтобы общаться с моделью без ограничений на число запросов, нужна опция «Алиса Про».

Открыть чат с Алисой

Бизнес-заказчикам YandexGPT 5 Pro доступна на платформе Yandex Cloud AI Studio. Там есть всё, что требуется для интеграции — API, AI Playground, инструменты для создания AI-ассистентов и другие возможности.

Использовать YandexGPT 5

Попробовать YandexGPT 5