генеративные модели для реальных задач

Alice AI — новое семейство наших генеративных моделей.

В нём собраны самые мощные модели Яндекса — текстовая Alice AI LLM, визуально-текстовая Alice AI VLM и картиночная Alice AI ART. Они обучены на миллиардах запросов к нашим сервисам, чтобы решать реальные задачи пользователей и бизнеса.

Чтобы проверить эффективность новых моделей, мы оценили качество ответов методом слепого попарного сравнения (side-by-side) на тысячах специально отобранных задач из потока запросов к нейросетям и ассистентам Яндекса. Alice AI не уступает DeepSeek, а с некоторыми популярными у российских пользователей типами задач — например, связанными с образованием и путешествиями — справляется заметно лучше.

Тематическое распределение задач, на которых тестировались модели Alice AI
Тематическое распределение задач, на которых тестировались модели Alice AI
Тематическое распределение задач, на которых тестировались модели Alice AI
54%
побед Alice AI
против DeepSeek
68%
побед Alice AI
против прошлой версии
Алисы

Alice AI LLM

Генеративная языковая модель — отвечает, анализирует, решает и придумывает.

Самая мощная языковая модель Яндекса

Alice AI LLM имеет архитектуру Mixture of Experts и обучена с подкреплением (Reinforcement Learning) с многокомпонентными наградами. Модель использует для ответа не все параметры, а только самые релевантные — как будто привлекая эксперта для решения каждой конкретной задачи.

Это позволило примерно в семь раз повысить число параметров модели без пропорционального роста вычислительных ресурсов. В результате Alice AI LLM превосходит предыдущие текстовые модели Яндекса как в решении реальных задач пользователей, так и в стандартизированных тестах (бенчмарках) из разных предметных областей.

50%
побед Alice AI LLM
против DeepSeek
69%
побед Alice AI LLM
против старой версии Алисы

Отлично помогает школьникам

В Alice AI LLM значительно выросло качество ответов, полезных ученикам и родителям. Модель гораздо лучше объясняет школьные темы и задания: от орфографии и пунктуации до математических задач.

Для этого мы собрали команду экспертов с практическим опытом преподавания. Их оценки использовались для обучения модели — это позволило буквально перенять опыт лучших педагогов по разным предметам и значительно улучшить качество ответов в образовательных задачах.

Процент успешно выполненных заданий в образовательных бенчмарках
Название бенчмарка
Alice AI LLM
DeepSeek V3.1
YandexGPT 5.1 Pro
EduBench History Бенчмарк, разработанный Яндексом для оценки качества решения школьных задач по истории
80
74
74
EduBench Literature Бенчмарк, разработанный Яндексом для оценки качества решения школьных задач по литературе
88
83
85
EduBench Russian Бенчмарк, разработанный Яндексом для оценки качества решения школьных задач по русскому языку
83
52
74
EduBench Math Бенчмарк, разработанный Яндексом для оценки качества решения школьных задач по математике
83
84
72

Эффективная модель для бизнеса

Alice AI LLM превосходит предыдущую версию и DeepSeek как при сравнении на всём потоке актуальных для бизнеса запросов, так и в решении конкретных задач — например, ответах на основе баз знаний (retrieval augmented generation, RAG), ответах на открытые вопросы, генерации контента. Это позволяет новой модели быть успешнее в ряде ключевых бизнес-сценариев, таких как креативная генерация или ответы в чате.

Весь поток запросов для бизнеса
53%
побед Alice AI LLM
против YandexGPT 5.1 Pro
60%
побед Alice AI LLM
против DeepSeek V3.1
Процент побед в слепом попарном сравнении для типовых категорий бизнес-задач
Категория задач
Против
YandexGPT 5.1 Pro
Против
DeepSeek V3.1
Ответы по базам знаний
(RAG)
54
60
Переформулировки
55
68
Открытые вопросы
57
60
Генерация контента
55
59
Процент успешно выполненных заданий в бенчмарках
Название бенчмарка
Alice AI LLM
DeepSeek V3.1
YandexGPT 5.1 Pro
Факты из разных областей знаний
GPQA Diamond (CoT) Бенчмарк с вопросами уровня аспирантуры по естественным наукам, проверяющий глубокое предметное понимание и многошаговые рассуждения
72
75
49
MMLU Pro (CoT) Расширенная версия классического бенчмарка MMLU с более сложными вопросами из разных областей
82
84
72
Hard Multi QA RU Разработанный Яндексом усложнённый фактовый бенчмарк с вопросами в разных форматах
65
60
48
WikiFacts RU Разработанный Яндексом бенчмарк с вопросами по фактам из википедии
85
67
74
CultCat RU Разработанный Яндексом бенчмарк на знание Россиского культурного кода
74
57
65
Следование заданному формату ответа
Format RU Бенчмарк, разработанный Яндексом для оценки соблюдения заданного формата
75
69
78
IFEval Международный открытый бенчмарк для оценки соблюдения заданного формата
84
87
81
Работа с текстом
YExtract RU Бенчмарк, разработанный Яндексом для оценки задачи извлечения информации
63
52
65
Rewrite RU Бенчмарк, разработанный Яндексом для оценки навыка переписывания текста
93
92
92
Работа с длинным контекстом
FinQA 32k RU (CoT) Бенчмарк, составленный из финансовых вопросов к длинным документам (до 32K токенов), требующий числовых вычислений, работы с таблицами и агрегирования фактов из отчётов.
75
73
70
Функции, математика и код
BFCL Бенчмарк, проверяющий точность вызова функций
68
58
69
MATH 500 Международный бенчмарк, проверяющий способность модели решать математические задачи
96
96
81
LiveCodeBench v6 Бенчмарк генерации кода с проверкой через запуск тестов на задачах из реальных репозиториев и онлайн-источников
48
52
33

Новая модель лучше справляется с креативной генерацией — например, созданием тезисов для презентации или текстов для сайта. Улучшилась работа с чатовыми сценариями: модель точнее учитывает контекст диалога и даёт более развёрнутые ответы.

Также Alice AI LLM эффективнее преобразует текст в токены — элементы, с которыми работает нейросеть. При токенизации моделями с открытым кодом (например, Qwen3) один токен в среднем содержит 2–3 символа кириллического текста, а в Alice AI LLM — 4–5 символов. Таким образом, работа с Alice AI в среднем может оказаться в 1,5 раза дешевле.

Где попробовать

Пользователи могут попробовать новую модель в чате с Алисой AI, который доступен в отдельном приложении и на alice.yandex.ru, а также в приложении Яндекс и Яндекс Браузере. Бизнес-клиенты — в Yandex Cloud на платформе AI Studio.

Alice AI VLM

Генеративная визуально-языковая модель — видит, понимает, решает и отвечает.

Как она работает

Alice AI VLM обучена на масштабных корпусах изображений, текстов и мультимодальных документов. Анализируя взаимосвязи между визуальным и текстовым контекстом, модель распознаёт предметы, таблицы и текст — в том числе рукописный.

61%
побед Alice AI против прошлой
версии Алисы
на VLM-запросах
84%*
побед Alice AI против DeepSeek на VLM-запросах
* Alice AI VLM поддерживает больше сценариев работы с изображениями, чем DeepSeek
Alice AI VLM может не только распознать объект или узнать фильм по кадру, но и решать произвольные задачи пользователя. Например, проанализировать график, пересказать страницу учебника, составить описание товара по фото или ответить на конкретный вопрос об изображении.

Помогает в учёбе

Alice AI VLM помогает школьникам и родителям справляться с заданиями. Получая на вход фото задания из учебника или рукописный текст, модель пошагово объясняет решение, почти как учитель. Это работает для математики (алгебры и геометрии), русского и литературы, английского и других предметов за исключением отдельных типов заданий — например, геометрических задач на построение.

В эффективности выполнения математических заданий модель превосходит DeepSeek — ведущую нейросеть из представленных на российском рынке

Процент успешного выполнения заданий из внутреннего математического бенчмарка
Тип задания
Alice AI VLM
DeepSeek
VisMath Мультимодальный бенчмарк, разработанный Яндексом для оценки качества решения школьных задач по математике
81
61
VisGeom Мультимодальный бенчмарк, разработанный Яндексом для оценки качества решения школьных задач по геометрии
69
51

Хорошо понимает текст — даже рукописный

Модель прочтёт текст на картинке или фото — например, конспект с формулами или старое письмо. В качестве распознавания рукописного текста на русском языке она значительно превосходит DeepSeek.

Процент успешного выполнения заданий в бенчмарке
Тип задания
Alice AI VLM
DeepSeek
Text-rich
65
43

Где попробовать

Alice AI VLM работает в приложении Алиса AI и на alice.yandex.ru, а также в чате с Алисой AI в приложении Яндекс и Яндекс Браузере.

Alice AI ART

Создаёт изображения по запросу пользователя.

Как она работает

Alice AI ART — модель с гибридной архитектурой, в которой сочетаются преимущества свёрточной и трансформерной нейросетей. По качеству генерации изображений, измеренному на потоке запросов пользователей к Алисе AI, она превосходит как предыдущую версию, так и Ideogram — одну из ведущих картиночных моделей, доступных в России. Также в новой модели заметно улучшилась релевантность генерации: она точнее выполняет инструкции пользователя.

59%
побед Alice AI ART
против YandexART 2.5
54%
побед Alice AI ART
против Ideogram v3
Результаты внутреннего слепого попарного сравнения на тысячах сгенерированных моделями изображений, представленные в виде рейтинга Эло*
Модель
Общее предпочтение
Следование инструкции
Alice AI ART
1004
990
Ideogram v3
978
979
YandexART 2.5
944
936
* Рейтинг Эло показывает относительную «силу» моделей. Чем он больше, тем выше вероятность «победы» в попарном сравнении.

Точнее следует инструкции

Alice AI ART лучше предыдущей версии понимает запрос пользователя и корректнее учитывает его при генерации изображения: удачнее воспроизводит нужный стиль и добавляет больше запрошенных деталей.

Где попробовать

Alice AI ART работает в приложении Алиса AI, Шедевруме и на alice.yandex.ru, а также в чате с Алисой AI в приложении Яндекс и Яндекс Браузере.
Tue Nov 25 2025 16:09:52 GMT+0300 (Moscow Standard Time)