Некоторые метрики, которые используются для оценки качества языковых моделей:
BBH (Billion Benchmark Huggingface). lab.neural-university.ru Метрика для сравнения различных моделей на больших объёмах данных и задачах. lab.neural-university.ru Оценивает качество модели по таким критериям, как точность ответов, скорость обработки запросов, способность к генерации текста и другие. lab.neural-university.ru
GPQA (Generalized Prompt Question Answering). lab.neural-university.ru Предполагает использование обобщённых промптов (вопросов или заданий), которые модель должна выполнить или на которые она должна ответить. lab.neural-university.ru
PARus. lab.neural-university.ru Метрика предназначена для оценки производительности моделей в задачах, связанных с русским языком. lab.neural-university.ru Включает в себя несколько ключевых критериев, таких как перевод, способность модели изменять контент и поведение, а также параметр «tokens», определяющий количество слов, которые модель может обрабатывать. lab.neural-university.ru
Perplexity. www.braintools.ru anns.ru Метрика служит статистическим показателем точности прогнозирования языковой модели при анализе образца текста. www.braintools.ru Измеряет уровень «удивления», которое испытывает модель при столкновении с новыми данными. www.braintools.ru
Примеры полезных ответов Поиска с Алисой на вопросы из разных сфер. Вопросы сгенерированы нейросетью YandexGPT для актуальных тем, которые определяются на базе обобщённых запросов к Поиску с Алисой.