Alice AI — новое семейство наших генеративных моделей.
В нём собраны самые мощные модели Яндекса — текстовая Alice AI LLM, визуально-текстовая Alice AI VLM и картиночная Alice AI ART. Они обучены на миллиардах запросов к нашим сервисам, чтобы решать реальные задачи пользователей и бизнеса.
Чтобы проверить эффективность новых моделей, мы оценили качество ответов методом слепого попарного сравнения (side-by-side) на тысячах специально отобранных задач из потока запросов к нейросетям и ассистентам Яндекса. Alice AI не уступает DeepSeek, а с некоторыми популярными у российских пользователей типами задач — например, связанными с образованием и путешествиями — справляется заметно лучше.
против DeepSeek
против прошлой версии
Алисы
Alice AI LLM
Самая мощная языковая модель Яндекса
Alice AI LLM имеет архитектуру Mixture of Experts и обучена с подкреплением (Reinforcement Learning) с многокомпонентными наградами. Модель использует для ответа не все параметры, а только самые релевантные — как будто привлекая эксперта для решения каждой конкретной задачи.
Это позволило примерно в семь раз повысить число параметров модели без пропорционального роста вычислительных ресурсов. В результате Alice AI LLM превосходит предыдущие текстовые модели Яндекса как в решении реальных задач пользователей, так и в стандартизированных тестах (бенчмарках) из разных предметных областей.
против DeepSeek
против старой версии Алисы
Лучше отвечает и объясняет — с Alice AI LLM Search
Для вопросов, требующих опоры на источники и данные о реальном мире, Alice AI подключает специализированную модель Alice AI LLM Search. Она умеет приходить к полному и понятному ответу через многостадийный поиск: задать вопрос, уточнить непонятное место в ответе дополнительным запросом — и так далее, до пяти последовательных уточнений. Таким образом модель глубоко разбирается в задаче — почти как человек, который может «поискать в интернете и понять».
против DeepSeek с поиском в интернете
Отлично помогает школьникам
В Alice AI LLM значительно выросло качество ответов, полезных ученикам и родителям. Модель гораздо лучше объясняет школьные темы и задания: от орфографии и пунктуации до математических задач.
Для этого мы собрали команду экспертов с практическим опытом преподавания. Их оценки использовались для обучения модели — это позволило буквально перенять опыт лучших педагогов по разным предметам и значительно улучшить качество ответов в образовательных задачах.
Название бенчмарка | Alice AI LLM | DeepSeek V3.1 | YandexGPT 5.1 Pro |
|---|---|---|---|
EduBench History
Бенчмарк, разработанный Яндексом для оценки качества решения школьных задач по истории | 80 | 74 | 74 |
EduBench Literature
Бенчмарк, разработанный Яндексом для оценки качества решения школьных задач по литературе | 88 | 83 | 85 |
EduBench Russian
Бенчмарк, разработанный Яндексом для оценки качества решения школьных задач по русскому языку | 83 | 52 | 74 |
EduBench Math
Бенчмарк, разработанный Яндексом для оценки качества решения школьных задач по математике | 83 | 84 | 72 |
Эффективная модель для бизнеса
Alice AI LLM превосходит предыдущую версию и DeepSeek как при сравнении на всём потоке актуальных для бизнеса запросов, так и в решении конкретных задач — например, ответах на основе баз знаний (retrieval augmented generation, RAG), ответах на открытые вопросы, генерации контента. Это позволяет новой модели быть успешнее в ряде ключевых бизнес-сценариев, таких как креативная генерация или ответы в чате.
против YandexGPT 5.1 Pro
против DeepSeek V3.1
Категория задач | Против YandexGPT 5.1 Pro | Против DeepSeek V3.1 |
|---|---|---|
Ответы по базам знаний (RAG) | 54 | 60 |
Переформулировки | 55 | 68 |
Открытые вопросы | 57 | 60 |
Генерация контента | 55 | 59 |
Название бенчмарка | Alice AI LLM | DeepSeek V3.1 | YandexGPT 5.1 Pro |
|---|---|---|---|
Факты из разных областей знаний | |||
GPQA Diamond (CoT)
Бенчмарк с вопросами уровня аспирантуры по естественным наукам, проверяющий глубокое предметное понимание и многошаговые рассуждения | 72 | 75 | 49 |
MMLU Pro (CoT)
Расширенная версия классического бенчмарка MMLU с более сложными вопросами из разных областей | 82 | 84 | 72 |
Hard Multi QA RU
Разработанный Яндексом усложнённый фактовый бенчмарк с вопросами в разных форматах | 65 | 60 | 48 |
WikiFacts RU
Разработанный Яндексом бенчмарк с вопросами по фактам из википедии | 85 | 67 | 74 |
CultCat RU
Разработанный Яндексом бенчмарк на знание Россиского культурного кода | 74 | 57 | 65 |
Следование заданному формату ответа | |||
Format RU
Бенчмарк, разработанный Яндексом для оценки соблюдения заданного формата | 75 | 69 | 78 |
IFEval
Международный открытый бенчмарк для оценки соблюдения заданного формата | 84 | 87 | 81 |
Работа с текстом | |||
YExtract RU
Бенчмарк, разработанный Яндексом для оценки задачи извлечения информации | 63 | 52 | 65 |
Rewrite RU
Бенчмарк, разработанный Яндексом для оценки навыка переписывания текста | 93 | 92 | 92 |
Работа с длинным контекстом | |||
FinQA 32k RU (CoT)
Бенчмарк, составленный из финансовых вопросов к длинным документам (до 32K токенов), требующий числовых вычислений, работы с таблицами и агрегирования фактов из отчётов. | 75 | 73 | 70 |
Функции, математика и код | |||
BFCL
Бенчмарк, проверяющий точность вызова функций | 68 | 58 | 69 |
MATH 500
Международный бенчмарк, проверяющий способность модели решать математические задачи | 96 | 96 | 81 |
LiveCodeBench v6
Бенчмарк генерации кода с проверкой через запуск тестов на задачах из реальных репозиториев и онлайн-источников | 48 | 52 | 33 |
Новая модель лучше справляется с креативной генерацией — например, созданием тезисов для презентации или текстов для сайта. Улучшилась работа с чатовыми сценариями: модель точнее учитывает контекст диалога и даёт более развёрнутые ответы.
Также Alice AI LLM эффективнее преобразует текст в токены — элементы, с которыми работает нейросеть. При токенизации моделями с открытым кодом (например, Qwen3) один токен в среднем содержит 2–3 символа кириллического текста, а в Alice AI LLM — 4–5 символов. Таким образом, работа с Alice AI в среднем может оказаться в 1,5 раза дешевле.
Где попробовать
Alice AI VLM
Как она работает
Alice AI VLM обучена на масштабных корпусах изображений, текстов и мультимодальных документов. Анализируя взаимосвязи между визуальным и текстовым контекстом, модель распознаёт предметы, таблицы и текст — в том числе рукописный.
версии Алисы на VLM-запросах
Помогает в учёбе
Alice AI VLM помогает школьникам и родителям справляться с заданиями. Получая на вход фото задания из учебника или рукописный текст, модель пошагово объясняет решение, почти как учитель. Это работает для математики (алгебры и геометрии), русского и литературы, английского и других предметов за исключением отдельных типов заданий — например, геометрических задач на построение.
В эффективности выполнения математических заданий модель превосходит DeepSeek — ведущую нейросеть из представленных на российском рынке
Тип задания | Alice AI VLM | DeepSeek |
|---|---|---|
VisMath
Мультимодальный бенчмарк, разработанный Яндексом для оценки качества решения школьных задач по математике | 81 | 61 |
VisGeom
Мультимодальный бенчмарк, разработанный Яндексом для оценки качества решения школьных задач по геометрии | 69 | 51 |
Хорошо понимает текст — даже рукописный
Модель прочтёт текст на картинке или фото — например, конспект с формулами или старое письмо. В качестве распознавания рукописного текста на русском языке она значительно превосходит DeepSeek.
Тип задания | Alice AI VLM | DeepSeek |
|---|---|---|
Text-rich | 65 | 43 |
Где попробовать
Alice AI ART
Как она работает
Alice AI ART — модель с гибридной архитектурой, в которой сочетаются преимущества свёрточной и трансформерной нейросетей. По качеству генерации изображений, измеренному на потоке запросов пользователей к Алисе AI, она превосходит как предыдущую версию, так и Ideogram — одну из ведущих картиночных моделей, доступных в России. Также в новой модели заметно улучшилась релевантность генерации: она точнее выполняет инструкции пользователя.
против YandexART 2.5
против Ideogram v3
Модель | Общее предпочтение | Следование инструкции |
|---|---|---|
Alice AI ART | 1004 | 990 |
Ideogram v3 | 978 | 979 |
YandexART 2.5 | 944 | 936 |
Точнее следует инструкции
Alice AI ART лучше предыдущей версии понимает запрос пользователя и корректнее учитывает его при генерации изображения: удачнее воспроизводит нужный стиль и добавляет больше запрошенных деталей.
девочка с чаем
по аналогии с картиной «Девочка с персиками»
из которого растут зонтики