Grok 3 сравнивается с другими моделями искусственного интеллекта следующим образом:
- По результатам тестов на платформе LMArena. 13 Ранняя версия Grok 3 заняла первое место во всех категориях, включая общий контроль стиля, кодирование, математику, творческое письмо, следование инструкциям, более длинные запросы и многоходовость. 1
- По внутреннему сравнению моделей ИИ xAI. 1 Grok 3 набрал как минимум на 10 баллов больше, чем его крупнейшие конкуренты — ChatGPT, o3mini, o1, Deepseek-R1 и Gemini-2 Flash Thinking — в математике, науке и кодировании. 1
- По результатам бенчмарков. 3 Grok 3 показал более высокие результаты, чем Gemini-2 Pro, DeepSeek V3, GPT-4o и Claude 3.5 Sonnet в математических (AIME), научных (GPQA) и задачах по кодированию (LiveCodeBench). 3
Таким образом, Grok 3 превосходит другие модели искусственного интеллекта в различных технических областях. 3