Вопросы к Поиску с Алисой
Шкала ELO применяется для оценки эффективности ИИ-моделей путём сравнения их способности решать пользовательские задачи. llmstudio.ru
Основной принцип: пользователи сравнивают ответы двух анонимных моделей на один и тот же запрос и выбирают лучший вариант. systems-analysis.ru На основе этих предпочтений рассчитывается рейтинг каждой модели, где более высокий рейтинг указывает на превосходство в человеческих оценках. systems-analysis.ru
Модели соревнуются, генерируя ответы на одинаковые задачи, а их рейтинги корректируются по мере появления новых моделей и заданий. habr.com
Пример применения: сравнение GPT-4 и Claude 3.5 в задаче ответа на вопросы-викторины, где точность одного из них улучшает его Elo-рейтинг относительно другого. habr.com
Однако у такого подхода есть и недостатки: система ELO субъективна, не учитывает вычислительную эффективность моделей и может быть подвержена влиянию порядка сравнений и гиперпараметров системы. llmstudio.ru