Некоторые примеры реальных бенчмарков, которые используются в современных ИИ-системах:
MLPerf. gptunnel.ai Бенчмарк для оценки производительности машинного обучения. gptunnel.ai Тесты охватывают несколько задач, включая обучение и вывод моделей в облаке и на периферийных устройствах. gptunnel.ai
HellaSwag. gptunnel.ai Бенчмарк для оценки здравого смысла у языковых моделей. gptunnel.ai Задача заключается в том, чтобы модель завершала предложения, используя здравый смысл. gptunnel.ai
MMLU (Massive Multitask Language Understanding). gptunnel.ai Бенчмарк для оценки многозадачности языковых моделей. gptunnel.ai Он включает задачи по математике, истории, праву и другим дисциплинам, проверяя, насколько хорошо модель может справляться с разными предметными областями. gptunnel.ai
GSM8K. gptunnel.ai Специализированный бенчмарк для математических задач, основанный на решении простых арифметических операций. gptunnel.ai Он проверяет, как модели могут решать задачи, требующие нескольких шагов логических рассуждений, и используется для оценки математических способностей ИИ. gptunnel.ai
TruthfulQA. gptunnel.ai Бенчмарк для оценки правдивости ответов модели. gptunnel.ai Он оценивает, насколько модель может отвечать на вопросы, избегая распространения ложной или непроверенной информации. gptunnel.ai
«Последний экзамен человечества» (Humanity’s Last Exam, HLE). blog.rt.ru Тест, созданный Scale AI совместно с Центром безопасности искусственного интеллекта. blog.rt.ru Он позволяет оценить, как близко языковые модели приблизились к экспертному уровню. blog.rt.ru Тест включает 2500 вопросов по более чем 100 дисциплинам: от математики до экологии. blog.rt.ru
Примеры полезных ответов Поиска с Алисой на вопросы из разных сфер. Вопросы сгенерированы нейросетью YandexGPT для актуальных тем, которые определяются на базе обобщённых запросов к Поиску с Алисой.